On the theory and practice of variable selection for functional data

Torrecilla Noguerales, José Luis

UAM_Biblioteca

Mañana, JUEVES, 24 DE ABRIL, el sistema se apagará debido a tareas habituales de mantenimiento a partir de las 9 de la mañana. Lamentamos las molestias.

Author

Torrecilla Noguerales, José Luis

Advisor

Berrendero Díaz, José Ramón

; Cuevas González, Antonio

Entity

UAM. Departamento de Matemáticas

Date

2015-12-17

Funded by

Los medios para que pudiera llevar a cabo mi investigación provienen del Departamento de Matemáticas, el Instituto de Ingeniería del Conocimiento y al programa FPI del MICINN

Subjects

Análisis multivariable - Tesis doctorales; Matemáticas

URI

http://hdl.handle.net/10486/670965

Note

Tesis doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Matemáticas. Fecha de lectura: 17-12-2015

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Abstract

Functional Data Analysis (FDA) might be seen as a partial aspect of the modern mainstream paradigm generally known as Big Data Analysis. The study of functional data requires new methodologies that take into account their special features (e.g. infinite dimension and high level of redundancy). Hence, the use of variable selection methods appears as a particularly appealing choice in this context. Throughout this work, variable selection is considered in the setting of supervised binary classification with functional data fX(t); t 2 [0; 1]g. By variable selection we mean any dimension-reduction method which leads to replace the whole trajectory fX(t); t 2 [0; 1]g, with a low-dimensional vector (X(t1); : : : ;X(td)) still keeping a similar classification error. In this thesis we have addressed the “functional variable selection” in classification problems from both theoretical and empirical perspectives. We first restrict ourselves to the standard situation in which our functional data are generated from Gaussian processes, with distributions P0 and P1 in both populations under study. The classical Hajek-Feldman dichotomy establishes that P0 and P1 are either mutually absolutely continuous with respect to each other (so there is a Radon-Nikodym (RN) density for each measure with respect to the other one) or mutually singular. Unlike the case of finite dimensional Gaussian measures, there are non-trivial examples of mutually singular distributions when dealing with Gaussian stochastic processes. This work provides explicit expressions for the optimal (Bayes) rule in several relevant problems of supervised binary (functional) classification under the absolutely continuous case. Our approach relies on some classical results in the theory of stochastic processes where the so-called Reproducing Kernel Hilbert Spaces (RKHS) play a special role. This RKHS framework allows us also to give an interpretation, in terms of mutual singularity, for the “near perfect classification” phenomenon described by Delaigle and Hall (2012a). We show that the asymptotically optimal rule proposed by these authors can be identified with the sequence of optimal rules for an approximating sequence of classification problems in the absolutely continuous case. The methodological contributions of this thesis are centred in three variable selection methods. The obvious general criterion for variable selection is to choose the “most representative” or “most relevant” variables. However, it is also clear that a purely relevance-oriented criterion could lead to select many redundant variables. First, we provide a new model-based method for variable selection in binary classification problems, which arises in a very natural way from the explicit knowledge of the RN-derivatives and the underlying RKHS structure. As a consequence, the optimal classifier in a wide class of functional classification problems can be expressed in terms of a classical, linear finite-dimensional Fisher rule. Our second proposal for variable selection is based on the idea of selecting the local maxima (t1; : : : ; td) of the function V2 X (t) = V2(X(t); Y ), where V denotes the distance covariance III IV ABSTRACT association measure for random variables due to Sz´ekely et al. (2007). This method provides a simple natural way to deal with the relevance vs. redundancy trade-off which typically appears in variable selection. This proposal is backed by a result of consistent estimation for the maxima of V2 X . We also show different models for the underlying process X(t) under which the relevant information is concentrated on the maxima of V2 X . Our third proposal for variable selection consists of a new version of the minimum Redundancy Maximum Relevance (mRMR) procedure proposed by Ding and Peng (2005) and Peng et al. (2005). It is an algorithm to systematically perform variable selection, achieving a reasonable trade-off between relevance and redundancy. In its original form, this procedure is based on the use of the so-called mutual information criterion to assess relevance and redundancy. Keeping the focus on functional data problems, we propose here a modified version of the mRMR method, obtained by replacing the mutual information by the new distance correlation measure in the general implementation of this method. The performance of the new proposals is assessed through an extensive empirical study, including about 400 simulated models (100 functional models 4 sample sizes) and real data examples, aimed at comparing our variable selection methods with other standard procedures for dimension reduction. The comparison involves different classifiers. A real problem with biomedical data is also analysed in collaboration with researchers of Hospital Vall d’Hebron (Barcelona). The overall conclusions of the empirical experiments are quite positive in favour of the proposed methodologies.

El Análisis de Datos Funcionales (FDA por sus siglas en inglés) puede ser visto como una de las facetas del paradigma general conocido como Big Data Analysis. El estudio de los datos funcionales requiere la utilización de nuevas metodologías que tengan en cuenta las características especiales de estos datos (por ejemplo, la dimensión infinita y la elevada redundancia). En este contexto, las técnicas de selección de variables parecen particularmente atractivas. A lo largo de este trabajo, estudiaremos la selección de variables dentro del marco de la clasificación supervisada binaria con datos funcionales fX(t); t 2 [0; 1]g. Por selección de variables entendemos cualquier método de reducción de dimensión enfocado a remplazar las trayectorias completas fX(t); t 2 [0; 1]g por vectores de baja dimensión (X(t1); : : : ;X(td)) conservando la informaci ón discriminante. En esta tesis hemos abordado la “selección de variables funcional” en problemas de clasificación tanto en su vertiente teórica como empírica. Nos restringiremos esencialmente al caso general en que los datos funcionales están generados por procesos Gaussianos, con distribuciones P0 y P1 en las distintas poblaciones. La dicotomía de Hajek-Feldman establece que P0 y P1 sólo pueden ser mutuamente absolutamente continuas (existiendo entonces una densidad de Radon-Nikodym (RN) de cada medida con respecto al a otra) o mutuamente singulares. A diferencia del caso finito dimensional, cuando trabajamos con procesos Gaussianos aparecen ejemplos no triviales de distribuciones mutuamente singulares. En este trabajo se dan expresiones explíıcitas de la regla de clasificación óptima (Bayes) para algunos problemas funcionales binarios relevantes en el contexto absolutamente continuo. Nuestro enfoque se basa en algunos resultados clásicos de la teoría de procesos estocásticos, entre los que los Espacios de Hilbert de Núcleos Reproductores (RKHS) desempeñan un papel fundamental. Este marco RKHS nos permite también dar una interpretacién del fenómeno de la “clasificación casi perfecta” descrito por Delaigle and Hall (2012a), en términos de la singularidad mutua de las distribuciones. Las contribuciones metodológicas de esta tesis se centran en tres métodos de selección de variables. El criterio más obvio para seleccionar las variables sería elegir aquéllas “más representativas” o “más relevantes”. Sin embargo, un criterio basado únicamente en la relevancia probablemente conduciría a la selección de muchas variables redundantes. En primer lugar, proponemos un nuevo método de selección de variables basado en modelo, que surge de manera natural del conocimiento de las derivadas RN y de la estructura RKHS subyacente. Como consecuencia, el clasificador óptimo para una amplia clase de problemas de clasificación funcional puede expresarse en términos de la regla lineal de Fisher finito dimensional. Nuestra segunda propuesta para selección de variables se basa en la idea de seleccionar los máximos locales (t1; : : : ; td) de la función V2 X (t) = V2(X(t); Y ), donde V denota la covarianza de distancias, medida de asociación entre variables aleatorias propuesta por Székely et al. (2007). Este procedimiento se ocupa de manera natural del equilibrio entre relevancia y redundancia tıpico de la selección de variables. Esta propuesta está respaldada por un resultado de consistencia en la estimación de los máximos de V2 X . Además, se muestran distintos modelos de procesos subyacentes X(t) para los que la información relevante se concentra en los máximos de V2 X . La tercera propuesta para seleccionar variables es una nueva versión del método mRMR (mínima Redundancia Máxima Relevancia), propuesto en Ding and Peng (2005) y Peng et al. (2005). Este algoritmo realiza una selección de variables sistemática, consiguiendo un equilibrio relevancia-redundancia razonable. El procedimiento mRMR original se basa en la utilización de la información mutual para medir la relevancia y la redundancia. Manteniendo el problema funcional como referencia, se propone una nueva versión de mRMR en la que la información mutua es remplazada por la nueva correlación de distancias. El rendimiento de las nuevas propuestas es evaluado mediante extensos estudios empíricos con el objetivo de comparar nuestros métodos de selección de variables con otros procedimientos de reducción de dimensiónn ya establecidos. Los experimentos incluyen 400 modelos de simulación (100 modelos funcionales 4 tama˜nos muestrales) y ejemplos con datos reales. La comparativa incluye distintos clasificadores. Además se ha analizado un problema real con datos biomédicos en colaboración con investigadores del Hospital Vall d’Hebron (Barcelona). Los resultados del estudio son, en general, bastante positivos para los nuevos métodos

Show full item record