Análisis de texturas para la clasificación de células en imágenes histológicas de gónadas de peces

González Rufino, Mª Encarnación

Análisis de texturas para la clasificación de células en imágenes histológicas de gónadas de peces

González Rufino, Mª Encarnación

Supervised by:

Pilar Carrión Pardo Director
Eva Cernadas García Director
Arno Formella Director

Defence university: Universidade de Vigo

Fecha de defensa: 10 November 2016

Committee:

Pedro Villar Castro Chair
Juan Francisco Gálvez Gálvez Secretary
María Luisa Durán Martín-Meras Committee member

Type: Thesis

Teseo: 431681 DIALNET

Abstract

La estimación del poder reproductivo o fecundidad de un stock es uno de los principales parámetros a contemplar en la gestión de los recursos marinos. El método más preciso y aceptado internacionalmente por la comunidad científica para la estimación de la fecundidad es el método estereológico, que se realiza a partir de imágenes digitales de secciones obtenidas de cortes histológicos realizados al ovario del pez. Para aplicar este método en el cálculo de la estimación de la fecundidad, es necesaria la medición de las áreas de los ovocitos maduros (células) con núcleo visible en la imagen y el recuento de las células en cada estado de desarrollo de varias imágenes histológicas de las gónadas del pez. Actualmente, este proceso lo realizan manualmente los expertos en ciencias marinas, por lo que requiere un gran esfuerzo en tiempo y recursos humanos. De ahí que, en la práctica, se realicen menos análisis de los deseables. El proyecto de investigación "DETEPRE: Desarrollo e implementación de nuevas tecnologías y protocolos en el estudio de la ecología reproductiva pesquera", financiado por la Xunta de Galicia y coordinado entre la Universidade de Vigo (UVigo), Universidade de Santiago de Compostela (USC) y el Instituto de Investigaciones Marinas de Vigo (IIM) del Consejo Superior de Investigaciones Científicas (CSIC), tenía como objetivo la automatización del proceso de estimación de la fecundidad de los peces. El éxito final del desarrollo del sistema radica, en parte, en la calidad del reconocimiento y clasificación de las células maduras que se pueda alcanzar utilizando técnicas de análisis digital de imagen. Esta tesis doctoral se centra en el desarrollo e implementación de técnicas de análisis de imagen que permiten discriminar entre células con presencia de núcleo visible o no en la imagen y clasificar esas células según su estado de desarrollo. Los expertos en ciencias marinas utilizan un conocimiento de alto nivel, basado en la experiencia, para realizar esta distinción entre clases, que no puede ser descrito de forma explícita. Parece que los criterios que pueden utilizar en esta categorización están asociados con los conceptos de textura y color de la visión por computador. La mayor parte de las técnicas de análisis de texturas están formuladas para imágenes rectangulares, sin embargo, nuestros objetos son células con formas irregulares. Es por ello que se han tenido que reformular e implementar varias técnicas pertenecientes a distintas familias para su aplicación a regiones irregulares. Además, dado que la mayoría de los dispositivos adquieren las imágenes en RGB, se ha utilizado este espacio para la extracción de características de textura en color. A lo largo de este trabajo de investigación se han realizado tres experimentos: A) El primero, con imágenes rectangulares de un reducido conjunto de datos y aplicando sólo 4 clasificadores, ha proporcionado resultados moderados que han permitido concluir que las características de textura tienen cierta capacidad de discriminación para ambos tipos de clasificaciones (discriminación entre células con núcleo visible o no en la imagen y estados de desarrollo). B) En un segundo experimento se ha realizado una exhaustiva comparación estadística incluyendo 17 clasificadores de distintas familias, dos metodologías de validación (K-fold cross validation (CV) y leave-one-out cross-validation (LOOCV)), dos especies (Merluccius merluccius y Trisopterus luscus) y más de 70 vectores de características obtenidos al aplicar las aproximaciones integrativa y paralela para realizar clasificación de texturas en color. De este análisis comparativo se han deducido varias conclusiones: 1. El color de las imágenes es una característica importante para ambos problemas de clasificación, puesto que los vectores de características de texturas en color (tanto utilizando la aproximación paralela como integrativa) incrementan el porcentaje de acierto. 2. Dentro de las texturas en color, la aproximación paralela ha proporcionado mejores porcentajes de acierto que la aproximación integrativa para ambos problemas, con un tiempo computacional inferior. 3. Con relación a los clasificadores, el clasificador SVM (Support Vector Machine) es claramente el mejor para ambos problemas. 4. En cuanto a la robustez, cabe destacar que las conclusiones anteriores son extrapolables a diferentes especies de peces. 5. A propósito de la metodología de validación, la validación LOOCV ha proporcionado mejores resultados que la validación CV, sugiriendo que con la validación cruzada CV no se construyen conjuntos de entrenamiento y test suficientemente representativos para evaluar la calidad del clasificador. 6. Con relación a los descriptores de textura en color, no existe un vector de características que proporcione la mayor precisión para ambos problemas y todas las especies utilizadas. 7. La calidad de los datos etiquetados por los expertos tiene gran influencia en los resultados finales. Para la especie merluza (Merluccius merluccius), el mejor porcentaje de acierto alcanzado ha sido del 99.0% para la discriminación de los ovocitos según la ausencia/presencia de núcleo visible en la imagen y del 99.6% para la clasificación por estados de desarrollo. Ambos resultados los ha proporcionado el clasificador SVM. Este mismo clasificador es también el que ha proporcionado los mejores resultados para la especie faneca (Trisopterus luscus), en concreto se ha alcanzado el 99.8% de acierto en la discriminación de núcleo visible o no en la imagen y del 100% para la clasificación de estados de desarrollo. Todos los resultados del segundo experimento han servido para diseñar y desarrollar el módulo de clasificación del software Govocitos, un sistema de visión por computador para el cálculo de la fecundidad de los peces a partir del análisis de imágenes histológicas de las gónadas de los mismos. Este software está implantado en el Instituto de Investigaciones Marinas de Vigo del CSIC, es multiplataforma y ha sido implementado en el lenguaje de programación C/C++, registrado con licencia GPL en 2015 con número de asiento registral 03/2014/1260 y disponible públicamente (una versión local) en http://lia.ei.uvigo.es/daeira/software/govocitos y en http://citius.usc.es/w/govocitos. C) El tercer experimento corresponde a la evaluación del sistema de clasificación en un entorno real (dentro del software Govocitos). La selección del vector de características y del clasificador ha estado condicionada no sólo por la precisión en la clasificación para ambos problemas, sino también por el tiempo computacional y la capacidad de generalización, es decir, la precisión en ambas clasificaciones para distintas especies. Teniendo en cuenta todos estos factores, se ha incorporado en el módulo de clasificación un vector que corresponde a la unión de los estadísticos de primer orden para cada banda de color y los Patrones Binarios Locales uniformes invariantes a rotación. Govocitos incluye dos clasificadores SVM que operan sobre el mismo vector de características: uno para discriminar los ovocitos entre los que tienen o no visible su núcleo en la imagen, y otro para discriminar los ovocitos por su estado de desarrollo. A este software se le ha añadido un módulo que registra en ficheros las operaciones que realiza el experto usando Govocitos, para posteriormente evaluarlo. Después de aproximadamente un año, los expertos han analizado un total de 61 imágenes histológicas. Como era de esperar, los porcentajes de acierto para ambos problemas dentro de un entorno real (Govocitos) son inferiores a los obtenidos en la experimentación controlada. Esta disminución, en promedio, es de 14.7 puntos para la discriminación de núcleos visibles y no visibles en la imagen y de 6.4 puntos para la de estados de desarrollo. Probablemente este hecho se deba a que en los experimentos controlados, aunque los patrones (células) del conjunto test no fueron considerados en el conjunto de entrenamiento, puede que sean células que pertenecen a la misma imagen histológica y, por tanto, comparten el mismo procesamiento en la adquisición. Sin embargo, con el sistema funcionando en el entorno real, no sólo los patrones (células) son totalmente nuevos, sino también las imágenes e individuos a los que pertenecen. Sin embargo, los resultados obtenidos son muy aceptables considerando que Govocitos incluye una funcionalidad que permite al técnico, de un modo amigable, cambiar el etiquetado de los ovocitos clasificados erróneamente. Finalmente, es obligado hacer una declaración de intenciones en relación con aquellas vías de avance que se van a intentar recorrer en el futuro. Estas líneas de avance incluyen: 1. Comprobar si los resultados obtenidos en esta tesis doctoral son extrapolables a otras especies y a imágenes procedentes de otros laboratorios, con otros protocolos de procesamiento de las muestras y adquisición. Los resultados preliminares apuntan a que el comportamiento es, más o menos, uniforme con especies y diferentes laboratorios, pero no se ha realizado un análisis estadístico completo. 2. Experimentar con otros espacios de color o normalizaciones. 3. Extender el módulo de clasificación de Govocitos a otras aplicaciones que requieran clasificación.