Enterprise information integrationan unsupervised proposal for web page classification.

  1. Hernández Salmerón, Inmaculada Concepción
Dirixida por:
  1. Rafael Corchuelo Gil Director
  2. David Ruiz Cortés Director

Universidade de defensa: Universidad de Sevilla

Fecha de defensa: 17 de decembro de 2012

Tribunal:
  1. Carlos Delgado Kloos Presidente/a
  2. José Miguel Toro Bonilla Secretario/a
  3. Manuel Lama Penín Vogal
  4. Carlos Alberto Pan Bermúdez Vogal
  5. Juan Manuel Corchado Rodríguez Vogal

Tipo: Tese

Teseo: 332513 DIALNET lock_openIdus editor

Resumo

La integración de aplicaciones web dentro de procesos automatizados de negocio requiere el diseño de wrappers que permitan ejecutar las consultas de un usuario usando los formularios de búsqueda que ofrece cada aplicación. Dichos wrappers se basan, entre otros componentes, en navegadores automáticos que se encargan de enviar los formularios de búsqueda rellenados previamente y navegar hacia las páginas que contienen la información necesaria para responder las consultas del usuario; posteriormente la información se extrae de dichas páginas mediante un extractor de información. Los navegadores hacen uso de clasificadores de páginas web que les permiten distinguir las páginas que son relevantes de las que no. En esta tesis, tratamos el problema de cómo diseñar un clasificador de páginas web no supervisado que utilice únicamente la información proporcionada por la URL de las páginas y que no requiere un crawling extensivo del sitio analizado. En la bibliografía, existen muchas propuestas de clasificación de páginas web, pero presentan diversos inconvenientes, concretamente: requieren realizar un crawling previo exhaustivo del sitio web, que es costoso e incluso inviable en algunos casos, son supervisados, lo que exige al usuario que proporcione información de entrenamiento, o usan características de dentro de las páginas para clasificarlas, lo que obliga a descargarlas previamente. Nuestra contribución es CALA, una nueva propuesta automática de generación de clasificadores de páginas web basados en la URL. CALA genera un conjunto de patrones de URL, que representan las distintas clases de páginas ofrecidas por un sitio web, de forma que una página puede ser clasificada comparando su URL con los patrones y encontrando aquél con el que coincide. Las principales características de CALA son que no tiene ninguno de los inconvenientes anteriores, que es computacionalmente tratable y que ha sido validada mediante experimentos sobre algunos de los sitios web reales más visitados. Nuestra validación sugiere que CALA es muy eficiente y efectiva en la práctica.