A communication perspective on automatic text categorization

Capdevila Dalmau, Marta

A communication perspective on automatic text categorization

Capdevila Dalmau, Marta

Dirixida por:

Oscar W. Márquez Flórez Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 13 de marzo de 2009

Tribunal:

Fernando Pérez González Presidente/a
Eduardo Rodríguez Banga Secretario/a
David Enrique Losada Carril Vogal
Lorenza Carrasco Martorell Vogal
Jesús Cid Sueiro Vogal

Tipo: Tese

Teseo: 292452 DIALNET

Resumo

El interés principal de un sistema de comunicación es el de transferir información desde su fuente hasta su destino. Los documentos de texto también tratan con la transmisión de información. Particularmente, desde el punto de vista de un sistema de categorización de texto, la información codificada por un documento es el tema o categoría a la cual pertenece. Siguiendo esta intuición inicial, que a nuestro saber no ha sido explorada anteriormente, esta tesis desarrolla un nuevo marco teórico donde se estudia la Categorización Automática de Textos (ATC) desde una perspectiva de Sistemas de Comunicación. Bajo este enfoque, en lo concerniente a la representación interna del documento, se ha abordado la problemática reducción del espacio de indexación con un esquema supervisado de dos niveles, implementado por un filtrado de términos ruidosos y una posterio compresión de términos redundantes. Con este objetivo, los términos han sido caracterizados por una función de distribución por categorías sobre la cual se han podido establecer medidas de dispersión, que evalúan el grado de información que conlleva el término, y medidas de similitud, que determinan la cantidad de redundancia que hay entre ellos. El tema de la compresión de términos redundantes se ha tratado bajo un enfoque de agrupación (clustering) aglomerativa que reagrupa términos similares que pueden ser tratados como una única entidad de indexación. En lo que respecta al clasificador, los categorizadores probabilísticos Gausianos, hasta ahora básicamente ignorados, han sido revisados y adaptados a la concomitante dispersión en ATC. Al supuesto gausiano se ha añadido la hipótesis de independencia adoptada por el enfoque Naive Bayes, lo que ha generado la familia de clasificadores Naive Bayes Gausianos (GNB). Además, la idea perseguida por nuestra familia de clasificadores adaptados GNB es la de establecer una cota inferior para la varianza gausiana de manera a mitigar los efectos de la dispersión típica en la representación de las colecciones de textos.