Statistical distances for model validation and clustering. Applications to flow cytometry and fair learning
- Eustasio del Barrio Tellado Director
- Carlos Matrán Bea Co-director
Defence university: Universidad de Valladolid
Fecha de defensa: 14 May 2020
- Rosa Elvira Lillo Rodríguez Chair
- Luis Angel García Escudero Secretary
- Pietro Coretto Committee member
Type: Thesis
Abstract
La tesis afronta cuatro problemas distintos a raíz de las líneas de investigación de interés para el equipo. En concreto en el primer capítulo de la tesis se estudian los entornos de contaminación, a través de recortes, en la métrica de Kolmogorov. Se propone un test de bondad de ajuste basado en recortes que es flexible y para el cual se da un teorema central del límite. Se dan aplicaciones de las herramientas introducidas en el mundo de la cuasi-validación de modelos y de los índices de verosimilitud, así como herramientas eficaces de cálculo. El segundo capítulo de la tesis se centra en el problema de gating supervisado de citometrías de flujo. Se ha realizado en colaboración con el Centro de Investigación del Cáncer de Salamanca. La idea principal es agrupar una base de datos formada por citometrías clasificadas, usando técnicas de transporte óptimo, para producir grupos de citometrías parecidas entre ellas y sacar prototipos de cada grupo de manera que éstos puedan ser usados para hacer aprendizaje supervisado. Demostramos que nuestro método es competitivo en la clasificación de citometrías con métodos punteros. El tercer capítulo se centra en un campo bastante novedoso que es el aprendizaje justo, en el cual se trata de conseguir que los algoritmos de machine learning no tengan en cuenta atributos que no deberían ser relevantes debido a aspectos morales o legales. En particular nosotros aportamos métodos novedosos en el campo del clustering justo introduciendo transformaciones que denominamos disimilaridades de atracción-repulsión, basadas en conceptos del electromagnetismo. Demostramos que nuestros métodos producen un incremento en la justicia a la vez que conservan estructuras de grupo relevantes en el espacio de variables no protegidas. El último capítulo presenta resultados de un trabajo en progreso. En particular se trata de usar la estabilidad de los k-baricentros de Wasserstein para determinar el número de clusters adecuados para procedimientos de clustering basado en modelos. Mostramos que nuestro método es competitivo y proponemos una conjetura general.