Clasificación automática de documentación clínica.

  1. Lojo Vicente, José David
Supervised by:
  1. David Enrique Losada Carril Director
  2. Álvaro Barreiro García Director

Defence university: Universidade da Coruña

Fecha de defensa: 21 January 2013

Committee:
  1. Pedro Cabalar Chair
  2. Concepción Vidal Secretary
  3. Xosé Antón Vila Sobrino Committee member
  4. María Jesús Taboada Iglesias Committee member
  5. Félix Díaz-Hermida Committee member

Type: Thesis

Teseo: 336579 DIALNET lock_openRUC editor

Abstract

En los hospitales, se producen diariamente grandes cantidades de datos complejos. Puesto que los recursos humanos son limitados, la clasificación manual de los documentos producidos no es una alternativa óptima. Una de las tareas de la clasificación de la documentación clínica es la codificación de los informes de alta. La codificación es un proceso que consiste en analizar la documentación del alta, y asignar códigos de los diagnósticos de ese episodio clínico. Esta tesis doctoral tiene como objetivo investigar la Clasificación Automática de Textos (CAT) en un área compleja: la documentación clínica. Este es un escenario de aprendizaje supervisado, donde las clases son los códigos CIE-9-MC y los documentos son los informes de alta hospitalaria. Se utilizan diferentes estrategias de clasificación, tales como los algoritmos de vecindad (Knn) y las Máquinas de Soporte Vectorial (SVM). Una contribución fundamental de este estudio es la construcción de una nueva colección de informes de alta de un servicio clínico (documentos escritos en español). Es un banco de pruebas difícil por la gran cantidad de clases, el número medio de clases por documento, y la falta de equilibrio entre las clases. Se estudian diferentes representaciones de los documentos, distintos modelos de recuperación y el efecto de la ponderación en la clasificación. El objetivo final es construir un sistema de ayuda a los codificadores en la asignación de códigos CIE-9-MC. También investigamos en Aprendizaje Activo (AA) como una herramienta para seleccionar qué documentos deben ser codificados. Esto ayuda a formar buenas colecciones de entrenamiento y, por lo tanto, es una vía prometedora para mejorar los sistemas de clasificación clínicos.