Aplicaciones estadísticas de las proyecciones aleatorias

  1. Nieto Reyes, Alicia
Dirixida por:
  1. Juan Antonio Cuesta Albertos Director

Universidade de defensa: Universidad de Cantabria

Fecha de defensa: 26 de febreiro de 2010

Tribunal:
  1. Carlos Matrán Bea Presidente/a
  2. Manuel Febrero Bande Secretario
  3. Fabrice Gamboa Vogal
  4. Jean Marc Azaïs Vogal
  5. Antonio Cuevas González Vogal

Tipo: Tese

Teseo: 286660 DIALNET lock_openUCrea editor

Resumo

Dado un conjunto de datos, o una distribución, en un espacio de dimensión mayor a uno, las proyecciones aleatorias consisten en proyectar los datos, o calcular la marginal de la distribución, en un subespacio de menor dimensión que ha sido elegido de forma aleatoria, En el caso en que el subespacio en el que proyectamos tenga dimensión uno, la llamamos proyección aleatoria unidimensional. En el libro Vempala [81] está escrito <Random projection is useful in many settings. (...) A natural setting is when the input data is in high-dimensional space, and it is possible to preserve essential properties for the data (for the particular problem at hand) while reducing dimensionality.> Este libro contiene aplicaciones del Lema de Johnson y Lindenstrauss, Johnson y Lindenstrauss [45]. Dicho lema asegura que las proyecciones aleatorias aproximadamente preservan las distancias con un grado alto de probabilidad si el subespacio en el que proyectamos ha sido elegido con la distribución uniforme. Este resultado está extendido a la distribución gaussiana estándar en Frankl y Maehara [32]. Sin embargo, nuestro interés en las proyecciones aleatorias viene de otra propiedad que éstas preservan: la distribución. En Cuesta-Albertos et al. [15] se demuestra que una proyección aleatoria unidimensional basta para distinguir entre dos distribuciones siempre y cuando se encuentren en un espacio de Hilbert separable y que los momentos de una de ellas satisfagan una condición determinada. Esto es, dadas dos distribuciones y una marginal aleatoria unidimensional de estas, tenemos que casi seguro las distribuciones son diferentes/iguales si y sólo si las marginales son diferentes/iguales. Una extensión de este resultado a espacios de Banach se encuentra en Cuevas y Fraiman [24]. Esta propiedad hace que las proyecciones aleatorias sean una herramienta importante en la estadística multidimensional y funcional, ya que las proyecciones aleatorias nos permiten reducir la dimensión a uno, donde podemos aplicar técnicas unidimensionales, a la vez que obtenemos una conclusión que es válida en el espacio de partida. Es decir, en vez de aplicar una técnica determinada en un espacio de dimensión mayor que uno podemos hacer una proyección y aplicar la técnica en dimensión uno y si se cumplen determinadas condiciones de regularidad, Cuesta-Albertos et al. [15] nos permite inferir conclusiones en el espacio de partida. Por lo tanto, esta herramienta nos da facilidad debido a que la técnica en un espacio de dimensión mayor que uno es, en caso de que exista, más complicada que su homóloga unidimensional. Podríamos pensar que esta manera de actuar se basa en una idea algo radical: es suficiente con sólo una proyección aleatoria. Pero, por un lado, realmente esto no es algo tan nuevo puesto que en el prólogo de Vempala [81], C. H. Papadimitriou escribe <This book is about the radical idea that even a random projection is often useful.> De todas formas, a lo largo de esta tesis se muestra como a veces, en la práctica, puede ser útil tomar más de una proyección aleatoria. Por otro lado, hemos dicho que es suficiente con proyectar en un espacio de dimensión uno y aplicar ahí las técnicas unidimensionales. Obviamente, la sustitución de cada uno de los datos por un número real (los datos proyectados) es un proceso que implica pérdida de información. Sin embargo, en Hand [39] podemos leer <...simple methods typically yield performance almost as good as more sophisticated methods to the extent that the difference in performance may be swamped by other sources of uncertainty...> El trabajo de Hand está relacionada con técnicas de clasificación, pero esta idea podemos aplicarla también aquí en el sentido de que la pérdida de información que sufrimos no es tan relevante cuando se une a otros problemas que suelen aparecer en los datos reales. Merece la pena mencionar que Cuesta-Albertos et al. [15] ha creado cierto interés en las proyecciones aleatorias a pesar de ser un artículo relativamente reciente. Por ejemplo, algunas aplicaciones estadísticas en las que ha sido utilizado son los siguientes: ¿ Análisis de la varianza de varias vías para datos funcionales, Cuesta-Albertos y Febrero-Bande [13]. ¿ Identificación no paramétrica de la distribución de heterogeneidad en modelos económicos, Fox y Gandhi [30]. ¿ Tests no parametricos, Cuesta-Albertos et al. [11]. ¿ Profundidad y estadística dual, Cuevas y Fraiman [24]. ¿ Detección de valores atípicos en datos funcionales, Febrero-Bande et al. [27]. ¿ Estimación robusta y clasificación de datos funcionales, Cuevas et al. [23]. ¿ Tests de bondad de ajuste, Cuesta-Albertos et al. [12, 16]. Además, el test propuesto en Cuesta-Albertos et al. [16] se utiliza en Opazo et al. [68]. Por otro lado, en Bugni et al. [10], los autores toman como referencia Cuesta-Albertos et al. [12] para comparar el test de ajuste que proponen. ¿ Finalmente en Cuesta-Albertos et al. [14] se clasifican datos de sonoridad del habla y para ello se utiliza un test de Kolmogorov-Smirnov para datos funcionales que está desarrollado en Cuesta-Albertos et al. [15]. En esta tesis trabajamos con proyecciones aleatorias unidimensionales. Por lo tanto, cuando hablemos en lo que sigue de proyecciones aleatorias estaremos refiriéndonos a proyecciones aleatorias unidimensionales, a no ser que digamos lo contrario. En esta memoria presentamos dos nuevas aplicaciones de las proyecciones aleatorias. La primera es una definición nueva de profundidad que, además, es una aproximación a la conocida profundidad de Tukey, Tukey [80], y la segunda es un test de gaussianidad para procesos estrictamente estacionarios.