Fair learningan optimal transport based approach

  1. Gordaliza, Paula
Supervised by:
  1. Eustasio del Barrio Tellado Director
  2. Jean-Michel Loubes Co-director
  3. Fabrice Gamboa Co-director

Defence university: Universidad de Valladolid

Fecha de defensa: 30 September 2020

Committee:
  1. Gabriel Peyrè Chair
  2. Gilles Blanchard Secretary
  3. Jean-Michel Loubes Committee member
  4. Massimiliano Pontil Committee member
  5. Fabrice Gamboa Committee member
  6. Gábor Lugosi Committee member
Department:
  1. Statistics and Operations Research

Type: Thesis

Abstract

El propósito de esta tesis es doble. Por un lado, se estudian métodos de transporte óptimo destinados a hacer inferencia estadística. Por otro lado, se considera el reciente problema del aprendizaje justo con contribuciones basadas en la teoría del transporte óptimo. El uso generalizado de aplicaciones basadas en modelos de aprendizaje automático en la vida cotidiana y en el mundo profesional ha traído consigo preocupaciones sobre las cuestiones éticas que surgen de la adopción de estas tecnologías. En la primera parte de la tesis, motivamos el problema de la equidad presentando algunos resultados estadísticos exhaustivos sobre el estudio del criterio statistical parity a través del análisis del índice disparate impact en el conjunto de datos reales Adult income. Mostramos que tratar de hacer modelos justos puede ser una tarea particularmente difícil, especialmente cuando las observaciones de entrenamiento contienen sesgos. A continuación, se hace una revisión de los métodos matemáticos para el aprendizaje justo en un marco general, con contribuciones novedosas en el análisis del precio de la equidad en regresión y clasificación. En este último, concluimos esta primera parte reformulando los vínculos entre la equidad y la previsibilidad en términos de métricas de probabilidad. Analizamos los métodos de reparación basados en el transporte de las distribuciones condicionales hacia el baricentro de Wasserstein. Por último, proponemos el random repair que establece un equilibrio entre la pérdida de información y el nivel de equidad. La segunda parte está dedicada a la teoría asintótica del coste empírico de transporte. Proporcionamos un Teorema Central del Límite para la distancia Monge-Kantorovich entre dos distribuciones empíricas con tamaños $n$ y $m$, $\mathcal{W}_p(P_n,Q_m), \ p\geq1,$ y observaciones en $\mathbb{R}$. En el caso $p>1$ nuestras hipótesis son minimales en términos de momentos y suavidad. Probamos resultados que tratan con la elección de las constantes de centramiento. Proporcionamos una estimación consistente de la varianza asintótica que permite construir tests de dos muestras e intervalos de confianza para certificar la similitud entre dos distribuciones. Éstos se utilizan luego para evaluar un nuevo criterio de equidad en clasificación binaria. Además, proporcionamos un principio de desviaciones moderadas para el coste empírico de transporte en dimensión general. Por último, los baricentros de Wasserstein y el criterio de varianza utilizando la distancia de Wasserstein se emplean en muchos problemas para analizar la homogeneidad de una colección de distribuciones y las relaciones estructurales entre observaciones. Proponemos la estimación de los cuantiles del proceso empírico de la variación de Wasserstein mediante un procedimiento bootstrap. A continuación, con estos resultados hacemos inferencia estadística en un modelo de deformación general. Los tests se basan en la varianza de las distribuciones con respecto a su baricentro de Wasserstein, para los que probamos teoremas centrales del límite, incluidas las versiones bootstrap.