Método híbrido para categorización de texto basado en aprendizaje y reglas

Villena Román, Julio; Collada Pérez, Sonia; Lana Serrano, Sara y González Cristóbal, José Carlos (2011). Método híbrido para categorización de texto basado en aprendizaje y reglas. "Procesamiento del Lenguaje Natural" (n. 46); pp. 35-42. ISSN 1135-5948.

Descripción

Título: Método híbrido para categorización de texto basado en aprendizaje y reglas
Autor/es:
  • Villena Román, Julio
  • Collada Pérez, Sonia
  • Lana Serrano, Sara
  • González Cristóbal, José Carlos
Tipo de Documento: Artículo
Título de Revista/Publicación: Procesamiento del Lenguaje Natural
Fecha: 2011
Materias:
Escuela: E.U.I.T. Telecomunicación (UPM) [antigua denominación]
Departamento: Ingeniería y Arquitecturas Telemáticas [hasta 2014]
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[img]
Vista Previa
PDF (Document Portable Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (749kB) | Vista Previa

Resumen

En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte.

Más información

ID de Registro: 12323
Identificador DC: http://oa.upm.es/12323/
Identificador OAI: oai:oa.upm.es:12323
URL Oficial: http://sinai.ujaen.es/sepln/ojs/ojs/index.php/pln/article/view/838
Depositado por: Memoria Investigacion
Depositado el: 27 Ago 2012 12:44
Ultima Modificación: 21 Abr 2016 11:34
  • Open Access
  • Open Access
  • Sherpa-Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Recolecta
  • e-ciencia
  • Observatorio I+D+i UPM
  • OpenCourseWare UPM