El análisis de agrupamientos y los niveles del reconocimiento de pautas en quimiometría

LLETÍ CONTRERAS, ROSA

El análisis de agrupamientos y los niveles del reconocimiento de pautas en quimiometría

LLETÍ CONTRERAS, ROSA

Dirixida por:

María Cruz Ortiz Fernández Director
María Sagrario Sánchez Pastor Co-director

Universidade de defensa: Universidad de Burgos

Fecha de defensa: 16 de decembro de 2004

Tribunal:

Hortensia Iturriaga Martínez Presidente/a
Ana Herrero Gutiérrez Secretario/a
Carlos Herrero Latorre Vogal
Roberto Todeschini Vogal
José Manuel Andrade Garda Vogal

Tipo: Tese

Teseo: 129159 DIALNET

Resumo

La Tesis Doctoral que se ha presentado consta de cinco capítulos, que organizan la materia siguiendo los niveles del reconocimiento de pautas. Su contenido se describe a continuación. En el primer capítulo se ha propuesto un algoritmo para seleccionar variables en un análisis de agrupamientos. Dadas V variables, el número de posibles grupos extraídos de ellas es finito pero crece exponencialmente con V de manera que se debe utilizar una técnica eficiente de búsqueda. La técnica elegida ha sido un algoritmo genético. Como respuesta a optimizar es necesario disponer de un índice que mida la "calidad" del agrupamiento obtenido. Se han explorado los dos índices más eficaces disponibles actualmente: el coeficiente de silueta medio y el "gap". Puesto que el coste computacional del segundo es muy elevado se optó por las siluetas que define (de modo estandarizado) la proximidad de un punto a los demás de su grupo en relación a la distancia que le separa de los que no pertenecen al grupo. La media de las siluetas es el índice para medir la calidad global del agrupamiento. El comportamiento de este índice para el proceso de selección de variables no fue adecuado, por lo que se sustituyó por el inferior de las siluetas individuales. Otra característica del algoritmo que se ha diseñado es su independencia de la técnica de agrupamiento utilizada, sin embargo en este trabajo de investigación sólo se ha aplicado con K-medias. Por ello se han introducido los conceptos básicos de K-medias, su dependencia de la solución inicial y la severa degradación que provoca tanto en el coeficiente de silueta como en el 'gap' la presencia de variables no informativas. El algoritmo implementado en Matlab ha permitido definir de antemano el número de agrupamientos o considerarlo como un parámetro a optimizar junto con la selección de variables. Se ha aplicado a conjuntos de datos con estructura conocida y también a varios conjuntos de dat