A communication perspective on automatic text categorization

  1. Capdevila Dalmau, Marta
unter der Leitung von:
  1. Oscar W. Márquez Flórez Doktorvater/Doktormutter

Universität der Verteidigung: Universidade de Vigo

Fecha de defensa: 13 von März von 2009

Gericht:
  1. Fernando Pérez González Präsident/in
  2. Eduardo Rodríguez Banga Sekretär/in
  3. David Enrique Losada Carril Vocal
  4. Lorenza Carrasco Martorell Vocal
  5. Jesús Cid Sueiro Vocal

Art: Dissertation

Teseo: 292452 DIALNET

Zusammenfassung

El interés principal de un sistema de comunicación es el de transferir información desde su fuente hasta su destino. Los documentos de texto también tratan con la transmisión de información. Particularmente, desde el punto de vista de un sistema de categorización de texto, la información codificada por un documento es el tema o categoría a la cual pertenece. Siguiendo esta intuición inicial, que a nuestro saber no ha sido explorada anteriormente, esta tesis desarrolla un nuevo marco teórico donde se estudia la Categorización Automática de Textos (ATC) desde una perspectiva de Sistemas de Comunicación. Bajo este enfoque, en lo concerniente a la representación interna del documento, se ha abordado la problemática reducción del espacio de indexación con un esquema supervisado de dos niveles, implementado por un filtrado de términos ruidosos y una posterio compresión de términos redundantes. Con este objetivo, los términos han sido caracterizados por una función de distribución por categorías sobre la cual se han podido establecer medidas de dispersión, que evalúan el grado de información que conlleva el término, y medidas de similitud, que determinan la cantidad de redundancia que hay entre ellos. El tema de la compresión de términos redundantes se ha tratado bajo un enfoque de agrupación (clustering) aglomerativa que reagrupa términos similares que pueden ser tratados como una única entidad de indexación. En lo que respecta al clasificador, los categorizadores probabilísticos Gausianos, hasta ahora básicamente ignorados, han sido revisados y adaptados a la concomitante dispersión en ATC. Al supuesto gausiano se ha añadido la hipótesis de independencia adoptada por el enfoque Naive Bayes, lo que ha generado la familia de clasificadores Naive Bayes Gausianos (GNB). Además, la idea perseguida por nuestra familia de clasificadores adaptados GNB es la de establecer una cota inferior para la varianza gausiana de manera a mitigar los efectos de la dispersión típica en la representación de las colecciones de textos.