Método híbrido para categorización de texto basado en aprendizaje y reglas

Villena Román, Julio and Collada Pérez, Sonia and Lana Serrano, Sara and González Cristóbal, José Carlos (2011). Método híbrido para categorización de texto basado en aprendizaje y reglas. "Procesamiento del Lenguaje Natural" (n. 46); pp. 35-42. ISSN 1135-5948.

Description

Title: Método híbrido para categorización de texto basado en aprendizaje y reglas
Author/s:
  • Villena Román, Julio
  • Collada Pérez, Sonia
  • Lana Serrano, Sara
  • González Cristóbal, José Carlos
Item Type: Article
Título de Revista/Publicación: Procesamiento del Lenguaje Natural
Date: 2011
ISSN: 1135-5948
Subjects:
Faculty: E.U.I.T. Telecomunicación (UPM)
Department: Ingeniería y Arquitecturas Telemáticas [hasta 2014]
Creative Commons Licenses: Recognition - No derivative works - Non commercial

Full text

[img]
Preview
PDF - Requires a PDF viewer, such as GSview, Xpdf or Adobe Acrobat Reader
Download (749kB) | Preview

Abstract

En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte.

More information

Item ID: 12323
DC Identifier: http://oa.upm.es/12323/
OAI Identifier: oai:oa.upm.es:12323
Official URL: http://sinai.ujaen.es/sepln/ojs/ojs/index.php/pln/article/view/838
Deposited by: Memoria Investigacion
Deposited on: 27 Aug 2012 12:44
Last Modified: 21 Apr 2016 11:34
  • Logo InvestigaM (UPM)
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo Sherpa/Romeo
    Check whether the anglo-saxon journal in which you have published an article allows you to also publish it under open access.
  • Logo Dulcinea
    Check whether the spanish journal in which you have published an article allows you to also publish it under open access.
  • Logo de Recolecta
  • Logo del Observatorio I+D+i UPM
  • Logo de OpenCourseWare UPM