Statistical tests based on random projections
- Navarro Esteban, Paula
- Juan Antonio Cuesta Albertos Director/a
- Alicia Nieto Reyes Codirector/a
Universidad de defensa: Universidad de Cantabria
Fecha de defensa: 14 de diciembre de 2020
- Carlos Matrán Bea Presidente
- Antonio Cuevas González Secretario/a
- Ricardo Fraiman Vocal
Tipo: Tesis
Resumen
El Teorema de Cramér–Wold [1, p.291] establece que una probabilidad de Borel en un espacio euclídeo está determinada unívocamente por sus proyecciones unidimensionales. En otras palabras, dos distribuciones son iguales si y solo si todas sus marginales unidimensionales son iguales. Una versión mejorada del Teorema de Cramér–Wold aparece en el Teorema de Cuesta–Fraiman–Ransford [2, p.203]. Este resultado viene a decir que, bajo ciertas condiciones, dadas dos distribuciones de probabilidad definidas en un espacio de Hilbert separable, si elegimos aletoriamente un subespacio unidimensional con una distribución continua, entonces, con probabilidad uno: - Si las distribuciones son diferentes, las proyecciones también lo son. - Si las distribuciones son iguales, las proyecciones también lo son. El Teorema de Cramér–Wold justifica el uso de las técnicas de Projection Pursuit (PP) en los tests de bondad de ajuste, ya que la base de estas técnicas es proyectar los datos en una serie de direcciones unidimensionales apropiadas. Por ejemplo, en los tests de igualdad de dos distribuciones, las técnicas PP pretenden encontrar entre todas las direcciones posibles, aquellas donde las distribuciones son lo más diferentes posible. Como alternativa a estas direcciones (pseudo-)deterministas, el Teorema de Cuesta–Fraiman–Ransford permite considerar proyecciones aleatorias. Éstas consisten en proyectar los datos iniciales de alta dimensión en un subespacio de baja dimensión seleccionado aleatoriamente. Se usan en problemas que requieren el manejo de datos de dimensión reducida junto con eficiencia computacional y preservación de la estructura local de los datos. Esta tesis se centra en el manejo de estas últimas proyecciones. Se utilizan dos paradigmas: se elige un estadístico apropiado para el problema considerado en el caso unidimensional y 1. Se maneja un número reducido de proyecciones unidimensionales en las que, para cada una de ellas, se calcula el valor del estadístico. Se elige un valor que resuma los valores obtenidos. 2. Se calcula el valor esperado, dada la muestra, del estadístico. En este trabajo usamos 1. para proponer un nuevo procedimiento de detección de outliers en dimensión alta (ayudándonos del análisis secuencial) y 2. para introducir una novedosa familia de tests de uniformidad en hiperesferas. Estudios de simulación corroboran las propiedades teóricas obtenidas. Se ilustran las posibilidades de los métodos propuestos con su aplicación a conjuntos de datos reales (espectros de resonancia magnética de muestras de vino y espectros infrarrojos de muestras de gasolina en el caso de la detección de outliers y vinculados a la astronomía para el caso de los tests de uniformidad en la esfera). [1] H. Cramér and H. Wold, “Some theorems on distribution functions”, J. Lond. Math. Soc., vol. 11, no. 4, pp. 290–294, 1936. [2] J. A. Cuesta-Albertos, R. Fraiman, and T. Ransford, “A sharp form of the Cramér–Wold theorem”, J. Theor. Probab. , vol. 20, no. 2, pp. 201–209, 2007.