Statistical oscillatory models to solve problems in neuroscience

  1. Rodríguez Collado, Alejandro
Dirigida por:
  1. Cristina Rueda Sabater Directora

Universidad de defensa: Universidad de Valladolid

Fecha de defensa: 24 de junio de 2022

Tribunal:
  1. María Dolores Ugarte Martínez Presidente/a
  2. Agustín Mayo Iscar Secretario
  3. Oscar Manuel Rueda Palacio Vocal

Tipo: Tesis

Resumen

Un sistema oscilatorio es aquel en el que una partícula o conjunto de partículas vuelven a su estado inicial tras un periodo, y una oscilación es la variación repetitiva de una señal asociada a estos sistemas. Los sistemas oscilatorios regulan todo tipo de fenómenos estudiados en diversos campos. Por ejemplo, la luz de las estrellas en astronomía, las curvas de espectrometría en química experimental, la demanda eléctrica en ingeniería energética, entre otros muchos. En biomedicina, las señales oscilatorias surgen de forma ubicua: la actividad eléctrica del corazón, el flujo respiratorio de los pulmones, la activación de genes circadianos, así como la actividad eléctrica neuronal. Las señales oscilatorias han sido estudiadas por investigadores provenientes de muchas disciplinas, existiendo entre ellos diferencias significativas en cuanto a terminología, conceptos y métodos. El enfoque predilecto por los investigadores provenientes del campo de la comunicación es el basado en tiempo-frecuencia, mientras que los neurocientíficos prefieren un enfoque físico basado en la descripción dinámica de los sistemas mediante ecuaciones diferenciales. Por último, la perspectiva estadística, especialmente útil al observar señales con ruido, se ha empleado en cronobiología. El objeto de estudio de esta tesis es el análisis de las señales eléctricas neuronales, que registran los efímeros aumentos de voltaje que se dan en las neuronas, llamados curvas de potencial de acción o spikes. Los spikes se analizan de forma individual o como cadenas (también denominados spike trains). Los spikes transmiten información entre neuronas, y tanto su forma como su tasa de aparición caracterizan los diferentes tipos celulares, por lo que su estudio es crucial en neurociencia. El primer modelo que describió con precisión la dinámica neuronal fue el modelo de Hodgkin-Huxley, que asumía que las neuronas se comportan como circuitos eléctricos regidos por un sistema de ecuaciones diferenciales. Además, sirvió de inspiración para la creación de otros modelos biofisiologicamente realistas, como FitzHugh-Nagumo. Sin embargo, su naturaleza determinista, formulación compleja, falta de identificabilidad de sus parámetros y sensibilidad al ruido hicieron a los neurocientíficos buscar otras alternativas. En el presente, se emplean modelos más simples, como Hopfield, Izhikevich o la familia de modelos leaky integrate-and-fire; y modelos basados en datos. Algunos retos que surgen de analizar los datos neuronales son los siguientes: (a) las señales suelen tener bastante ruido, especialmente si han sido tomadas de forma no-invasiva; (b) los spikes son altamente asimétricos, lo que imposibilita el uso de ciertos métodos; (c) las señales neuronales requieren ser caracterizadas con medidas de escala, localización y forma debido a la amplia variedad de patrones que exhiben; (d) si dos neuronas se disparan simultáneamente, las formas de sus spikes se superponen y su separación no es sencilla; (e) en los análisis en tiempo real, el alto volumen de datos restringe el uso de modelos complejos. Algunos avances recientes en neurociencia gracias a los modelos de spikes son los siguientes: entender el funcionamiento del sistema nervioso, principalmente mediante la definición de subtipos neuronales; análisis de los procesos de aprendizaje y memorización, estudio de la conectividad entre neuronas, tratamiento de pacientes con epilepsia, e incluso el desarrollo de interfaces cerebro-computadora de alta precisión. En el ámbito de la neurociencia existen aún muchos problemas sin resolver. En esta tesis, nos centramos en dos: la clasificación en tipos celulares y el Spike Sorting. La clasificación en tipos celulares busca definir taxonomías jerárquicas celulares en base a características electrofisiológicas, morfológicas y genéticas. En el Spike Sorting, los spikes se clasifican de forma no supervisada, correspondiendo cada grupo a una neurona o tipo de neurona. En ambos casos, se requiere representar la forma del spike en términos de características. La extracción de características se ha hecho de muchas formas en la literatura: empleando mediciones directas sobre la señal, usando análisis en componentes principales o usando modelos. Dentro del último grupo, algunos apuestan por modelos biofisiológicos, descomposiciones de Fourier, wavelets, o modelos gaussianos. Además, otro problema desafiante en neurociencia es la eliminación del ruido de las señales, esencial especialmente en mediciones in vivo por su alto nivel de ruido. Las redes neuronales se utilizan predominantemente para resolver esta tarea. La motivación fundamental de esta tesis es demostrar el potencial de modelos estadísticos oscilatorios para describir, analizar y generar conclusiones a partir de señales neuronales. La formulación paramétrica de los modelos empleados resulta sencilla a la vez que flexible, lo que los hace eficaces para caracterizar las formas de los spikes. En concreto, se ha demostrado su potencial en la clasificación en tipos celulares y el Spike Sorting. Los modelos frequency modulated Möbius (FMM) se proponen en esta tesis como marco teórico general que genera un nuevo paradigma para formular y resolver una amplia gama de problemas en neurociencia. Los modelos han sido implementados en el lenguaje de programación R. El núcleo de esta metodología son las ondas FMM y los modelos FMM. Las ondas FMM son funciones no lineales paramétricas para describir oscilaciones en las que la fase se modela con transformaciones Möbius. Cada onda se define con cuatro parámetros básicos que miden amplitud, fase y forma. A partir de estos, se pueden definir paramétricamente otras medidas útiles en la práctica, como son los picos y los valles en las señales. Los FMM se definen como modelos de señal más error, en los que la señal es una suma de ondas FMM. Otro elemento fundamental en la metodología son las restricciones de orden entre parámetros, que integran información a priori en el modelo para incrementar su eficiencia e interpretabilidad fisiológica. También se han resuelto diversos problemas mediante técnicas de machine learning o aprendizaje automático. Por un lado, se han incorporado características extraídas con modelos FMM a procedimientos estándares como el discriminante lineal, support vector machine o random forest. Por otro lado, se ha desarrollado un procedimiento de clustering que combina la metodología FMM con modelos basados en mixturas. Esta tesis, que se presenta como un compendio de publicaciones, consta de cinco artículos científicos: tres publicados, uno aceptado y otro bajo revisión, existiendo entre ellos una cohesión temática. La exposición sigue el orden cronológico en el que se desarrollaron. Rueda, Rodríguez-Collado y Larriba, 2021 establece el marco teórico fundamental que conducirá todas las contribuciones de la tesis. Los modelos FMM son presentados como una descomposición de amplitud y frecuencia modulada especialmente apta para señales oscilatorias. La contribución más relevante de este trabajo es la definición del modelo FMM multicomponente. Se propone un algoritmo backfitting para la estimación de los parámetros del modelo. La sencillez de la formulación paramétrica de los modelos FMM facilita, por un lado, la obtención de características relevantes para el estudio de las señales, como es la señal analítica o el espacio de estados. Por otro lado, permite formular el modelo como un sistema de ecuaciones diferenciales. Por último, se muestra la capacidad del modelo para reproducir la dinámica neuronal y se compara con otros modelos previamente empleados en la literatura. En Rodríguez-Collado y Rueda, 2021a se presenta un modelo paramétrico de formulación sencilla capaz de reproducir la dinámica neuronal del modelo de Hodgkin- Huxley, referente aún en neurociencia décadas después de su creación. Se trata de un modelo para spike trains en el que cada spike se modela con dos componentes FMM y se asume, mediante restricciones, que todos los spikes de la cadena tienen la misma forma. Ataja diversos problemas del modelo de Hodgkin-Huxley, como es su falta de robustez o identificabilidad de los parámetros. El modelo se valida con una amplia experimentación, lo que nos lleva a conclusiones interesantes como son relacionar la morfología y los flujos de iones de la neurona con la forma y tasa de aparición de los spikes, respectivamente. El problema de la clasificación en tipos celulares se afronta en Rodríguez-Collado y Rueda, 2021b. En concreto, se define una taxonomía jerárquica para células de la corteza visual en ratones combinando características electrofisiológicas extraídas con el modelo FMM de la base de datos Allen cell types con características genéticas. Se trata de la primera taxonomía genuinamente circular de la literatura, de tal forma que es una combinación de una herramienta visual con un procedimiento de clustering integrado en el que se define un orden circular a partir del análisis de componentes principales. Por último, se prueba la alta capacidad de los parámetros FMM para discriminar los diferentes tipos neuronales mediante procedimientos de aprendizaje automático. En Rodríguez-Collado y Rueda, 2022, se propone un nuevo enfoque basado en los modelos FMM en el marco de los modelos de mixturas para resolver el problema del Spike Sorting. Se trata de un procedimiento de análisis de datos funcional y permite, entre otras cosas, comparar paramétricamente los patrones medios de los clusters. El artículo presenta un algoritmo esperanza-maximización para estimar los parámetros del modelo, así como un procedimiento para determinar de forma automática el número de clusters existente en los datos. El método se compara con otros enfoques seguidos en la literatura y la nueva propuesta resulta ser superior en términos de precisión, robustez e interpretabilidad. En paralelo a estos trabajos, se desarrolló el paquete de software FMM en el lenguaje de programación R. Permite ajustar, explorar, visualizar y generar todo tipo de modelos FMM de forma sencilla. Se programó cuidando el estilo, siguiendo pautas como evitar la duplicidad del código, sacar partido a la programación orientada a objetos y optimizar los cálculos realizados mediante el cómputo paralelizado. Una vez que la primera versión completa y estable del paquete fue publicada en el Comprehensive R Archive Network, se presentó y detalló su uso en Fernández et al., 2022. Esta tesis supone un desarrollo significativo de una metodología nueva y de alta aplicabilidad basada en las ondas FMM. Se ha implementado en un paquete software disponible de forma abierta y se ha demostrado su capacidad para resolver retos actuales en neurociencia, superando los resultados de métodos empleados habitualmente en la literatura. A partir de las conclusiones obtenidas en la tesis, se pueden definir muchas líneas futuras de investigación. Por una parte, quedan muchos problemas en neurociencia a los que dar respuesta. Algunos ejemplos son el estudio de la sincronización entre poblaciones neuronales, esencial para conocer los mecanismos que rigen el sistema nervioso, o el análisis de datos neuronales multicanal, en el que serán claves los modelos FMM multivariantes. Otra señal estrechamente asociada con algunos problemas no resueltos en neurociencia es el electroencefalograma, en el que se mide la actividad neuronal del cerebro. Más allá de la neurociencia, la versatilidad de la metodología FMM servirá para estudiar otros muchos problemas ligados a señales oscilatorias de diversos campos, como son la electrofisiología ocular, la electrocardiografía, o la química experimental, entre otros. Creemos que la metodología puede tener una importante repercusión en la medicina, mejorando la detección, tratamiento y control de enfermedades como la epilepsia, esquizofrenia, o demencia. Por otro lado, queda mucho trabajo por hacer desde un punto de vista metodológico, como es el desarrollo de procedimientos inferenciales o la creación de nuevos procedimientos para el análisis de datos funcionales. Evidentemente, esto implicará la implementación de nuevas funcionalidades en el paquete software FMM. Por último, se afrontará el reto de optimizar el tiempo de cómputo del algoritmo de estimación, usando lenguajes más eficientes, como C, así como programación GPU. Referencias: I. Fernández, A. Rodríguez-Collado, Y. Larriba, A. Lamela, C. Canedo, C. Rueda. FMM: an R package for modeling rhythmic patterns in oscillatory systems. The R Journal, in-press, 2022. A. Rodríguez-Collado and C. Rueda. A simple parametric representation of the Hodgkin-Huxley model. PLOS ONE, vol. 16, number 7, page 1-19, 2021. DOI: 10.1371/journal.pone.0254152. A. Rodríguez-Collado and C. Rueda. Electrophysiological and transcriptomic features reveal a circular taxonomy of cortical neurons. Frontiers in Human Neuroscience, vol. 15, page 684950, 2021. DOI: 10.3389/fnhum.2021.684950. A. Rodríguez-Collado and C. Rueda. Functional clustering of neuronal signals with FMM mixture models. Preprint, available in Arxiv. https://arxiv.org/abs/2203.03588. Submitted, 2022. C. Rueda, A. Rodríguez-Collado, and Y. Larriba. A novel wave decomposition for oscillatory signals. IEEE Transactions on Signal Processing, vol. 69, pages 960–972, 2021. DOI: 10.1109/TSP.2021.3051428.