Preprocesamiento inteligente para mejorar la precisión del filtrado de spam

Novo Lourés, María

Preprocesamiento inteligente para mejorar la precisión del filtrado de spam

Novo Lourés, María

Dirixida por:

José Ramón Méndez Reboredo Director
David Ruano Ordás Co-director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 21 de decembro de 2021

Tribunal:

Fernando Díaz Gómez Presidente/a
Florentino Fernández Riverola Secretario/a
Sara Rodríguez González Vogal

Tipo: Tese

Teseo: 688154 DIALNET Investigo editor

Resumo

El término spam hace referencia a mensajes no solicitados, no deseados o con remitente desconocido. Estos mensajes suelen ser enviados en grandes cantidades y con fines exclusivamente publicitarios. Aunque la vía más utilizada para hacer spam es el correo electrónico, puede hacerse a través de diversos servicios de Internet. Hasta el momento, la detección y filtrado de spam se ha centrado principalmente en la detección de anuncios sobre productos ilegales o fraudulentos, pero no en los intereses reales de usuario. Sin embargo, hay mensajes cuyos contenidos son irrelevantes para el usuario de la misma forma que los anuncios descritos anteriormente. Los mecanismos empleados actualmente para la detección y el filtrado de spam se basan en combinaciones de técnicas efectuadas con productos como SpamAssassin o frameworks similares. A partir de estos mecanismos, la obtención de mejoras en el filtrado sería posible mejorando el resultado de alguna de las técnicas independientes combinadas. El presente trabajo de investigación pretende obtener mejoras en el ámbito de las técnicas basadas en contenido. La motivación para esta decisión es que, en la actualidad, a pesar de la gran cantidad de aproximaciones existentes, el uso de aproximaciones basadas en contenido con mecanismos de aprendizaje automático se ha convertido en objeto de estudio por la efectividad que éstas podrían alcanzar gracias a la generalización e integración de conocimiento existente. Hasta el momento, las aproximaciones basadas en contenido se basaban en el empleo de técnicas de clasificación aplicadas sobre información de la presencia (o no) de tokens en el contenido. Sin embargo esta información de entrada para los clasificadores presenta inconvenientes importantes que impiden la obtención de unos resultados realmente precisos, como por ejemplo, la dependencia entre las características. De hecho, este modelo de clasificación, basado en tokens, se ha probado y optimizado en los últimos años hasta llegar a un punto en que, en la actualidad, es imposible obtener mejoras sustanciales y tender hacia la erradicación de los errores de clasificación. La presente investigación se centra en la incorporación de información semántica proveniente de un diccionario ontológico (Wordnet o Babelnet, por ejemplo). Así, en lugar de emplear información sobre tokens sería posible el empleo de synsets (conceptos). De esta forma, se podría obtener una mejora sustancial en la eficacia de los clasificadores, así como la identificación de los intereses del usuario (construcción de su perfil) para que los clasificadores eliminen la publicidad engañosa y los mensajes irrelevantes para el usuario. La hipótesis de partida para este trabajo es la siguiente: “Es posible preprocesar eficientemente contenidos intercambiados mediante los distintos protocolos y servicios de Internet para su representación en forma de synsets y obtener, mediante estos datos, mejoras significativas en la eficacia del filtrado de contenido spam”. Por tanto, este trabajo incluye dos objetivos generales que son (i) la elaboración de un mecanismo de preprocesamiento eficiente y (ii) la mejora del filtrado con los datos obtenidos del preprocesamiento de los contenidos. Dada la hipótesis formulada, se plantea la necesidad de alcanzar una serie de subobjetivos como (i) la construcción de un framework genérico para ejecutar un pipeline de preprocesamiento del texto que concluirá con la obtención del dataset procesado, (ii) la implementación de cada una de las tareas de preprocesamiento y (iii) pruebas de clasificación de textos representados en función de tokens y de synsets.