RT Dissertation/Thesis T1 Spatial depth-based methods for functional data A1 Sguera, Carlo AB In this thesis we deal with functional data, and in particular with the notion of functional depth. A functional depth is a measure that allows to order and rank the curves in a functionalsample from the most to the least central curve. In functional data analysis (FDA), unlike inunivariate statistics where R provides a natural order criterion for observations, the ways howseveral existing functional depths rank curves differ among them. Moreover, there is no agreementabout the existence of a best available functional depth. For these reasons among others,there is still ongoing research in the functional depth topic and this thesis intends to enhancethe progress in this field of FDA.As first contribution, we enlarge the number of available functional depths by introducingthe kernelized functional spatial depth (KFSD). In the course of the dissertation, we show thatKFSD is the result of a modification of an existing functional depth known as functional spatialdepth (FSD). FSD falls into the category of global functional depths, which means that theFSD value of a given curve relative to a functional sample depends equally on the rest of thecurves in the sample. However, first in the multivariate framework, where also the notion ofdepth is used, and then in FDA, several authors suggested that a local approach to the depthproblem may result useful. Therefore, some local depths for which the depth value of a givenobservation depends more on close than distant observations have been proposed in the literature.Unlike FSD, KFSD falls in the category of local depths, and it can be interpreted as alocal version of FSD. As the name of KFSD suggests, we achieve the transition from global tolocal proposing a kernel-type modification of FSD.KFSD, as well as any functional depth, may result useful for several purposes. For instance, using KFSD it is possible to identify the most central curve in a functional sample, thatis, the KFSD-based sample median. Also, using the p% most central curves, we can draw ap%-central region (0 < p < 100). Another application is the computation of robust means suchas the -trimmed mean, 0 < < 1, which consists in the functional mean calculated afterdeleting the proportion of least central curves. The use of functional depths in FDA has gonebeyond the previous examples and nowadays functional depths are also used to solve othertypes of problems. In particular, in this thesis we consider supervised functional classificationand functional outlier detection, and we study and propose methods based on KFSD.Our approach to both classification and outlier detection has a main feature: we are interestedin scenarios where the solution of the problem is not extremely graphically clear. In moredetail, in classification we focus on cases in which the different groups of curves are hardly recognizablelooking at a graph, and we overlook problems where the classes of curves are easilygraphically detectable. Similarly, we do not deal with outliers that are excessively distant fromthe rest of the curves, but we consider low magnitude, shape and partial outliers, which areharder to detect. We deal with this type of problems because in these challenging scenarios itis possible to appreciate important differences among both depths and methods, while thesedifferences tend to be much smaller in easier problems.Regarding classification, methods based on functional depths are already available. In thisthesis we consider three existing depth-based procedures. For the first time, several functionaldepths (KFSD and six more depths) are employed to implement these depth-based techniques.The main result is that KFSD stands out among its competitors. Indeed, KFSD, when usedtogether with one of the depth based methods, i.e., the within maximum depth procedure,shows the most stable and best performances along a simulation study that considers six differentcurve generating processes and for the classification of two real datasets. Therefore, theresults supports the introduction of KFSD as a new functional depth.For what concerns outlier detection, we also consider some existing depth-based proceduresand the above-mentioned battery of functional depths. In addition, we propose threenew methods exclusively designed for KFSD. They are all based on a desirable feature for a functional depth, that is, a functional depth should assign a low depth value to an outlier. Duringour research, we have observed that KFSD is endowed with this feature. Moreover, thanksto its local approach, KFSD in general succeeds in ranking correctly outliers that do not standout evidently in a graph. However, a low KFSD value is not enough to detect outliers, and it isnecessary to have at disposal a threshold value for KFSD to distinguish between normal curvesand outliers. Indeed, the three methods that we present provide alternative ways to choose athreshold for KFSD. The simulation study that we carry out for outlier detection is similarlyextensive as in classification. Besides our proposals, we consider three existing depth-basedmethods and seven depths, and two techniques that do not use functional depths. The resultsof this second simulation study are also encouraging: the proposed KFSD-based methods arethe only procedures that have good correct outlier detection performances in all the six scenariosand for the two contamination probabilities that we consider.To summarize, in this thesis we will present a new local functional depth, KFSD, which willturn out to be a useful tool in supervised classification, when it used in conjunction with someexisting depth-based methods, and in outlier detection, by means of some new procedures thatwe will also present in this work. AB El tema de esta tesis es el análisis de datos funcionales, y en particular de la noción de profundidadfuncional. Una medida de profundidad funcional permite ordenar las curvas deuna muestra funcional de la más central a la menos central. Al contrario de lo que ocurre enR donde existe una forma natural de ordenar las observaciones, en el análisis de datos funcionales(FDA) no existe una forma única de ordenar las curvas, y por tanto las diferentes profundidadesfuncionales existentes ordenan las curvas de distintas formas. Además, no existeun acuerdo sobre la existencia de una profundidad funcional mejor para todas las situacionesentre las disponibles. Por estas razones, entre otras, el tema de la noción de profundidad funcionales todavía un área de estudio de investigación activa, y esta tesis se propone colaboraren los avances en este campo de FDA.Como primera contribución, en esta tesis se amplía el número de profundidades funcionalesdisponibles mediante la introducción de la profundidad espacial funcional kernelizada(KFSD). A lo largo de este trabajo, se muestra que KFSD es el resultado de una modificación de una profundidad funcional existente conocida como profundidad espacial funcional(FSD). FSD se puede englobar dentro de la categoría de las profundidades funcionales globales,lo que significa que el valor de FSD para una curva dada, en relación con una muestrafuncional, depende igualmente del resto de las curvas en la muestra. Sin embargo, como en elcontexto multivariante, donde también se utiliza el concepto de profundidad, varios autoreshan sugerido que un enfoque local para la definición de una profundidad puede resultar útiltambién en FDA. Por este motivo, en la literatura se han propuesto algunas profundidadeslocales para las que el valor de la profundidad de una observación depende más de las observaciones cercanas que de las distantes. A diferencia de FSD, KFSD se puede clasificar enla categoría de las profundidades locales, y puede ser interpretada como una versión local deFSD. Como el nombre de KFSD sugiere, la transición de lo global a lo local se logrará medianteuna modificación de FSD basada en el uso de los kernels.KFSD, así como cualquier otra profundidad funcional, puede resultar ´ útil para varios propósitos en el ámbito del análisis estadístico de datos. Por ejemplo, usando KFSD es posibleidentificar la curva más central en una muestra funcional, es decir, la mediana de la muestrasegún KFSD. Además, utilizando el p% de las curvas centrales, es posible definir la p%-regióncentral (0 < p% < 100). Otra aplicación es el cálculo de medias robustas, como por ejemplo la -media truncada, con 0 < < 1, que consiste en la media funcional calculada sin considerarla proporción de las curvas menos centrales. El uso de las profundidades funcionales en FDAha ido más allá de los ejemplos anteriores, y en la actualidad las profundidades funcionalestambién se utilizan para resolver otros tipos de problemas. En particular, en esta tesis se consideranla clasificación supervisada funcional y la detección de curvas atípicas, y se estudian yproponen métodos basados en KFSD.El enfoque que se presenta en esta tesis en clasificación y detección de atípicos tiene unacaracterística principal: el foco del trabajo está puesto en escenarios en los que la solución delproblema no resulta muy clara gráficamente. Específicamente, en el apartado de clasificaciónse consideran casos en los que los diferentes grupos de curvas son apenas reconocibles mirandoun gráfico, mientras que no se consideran problemas donde las clases de las curvas sonfácilmente detectables gráficamente. De manera similar, no está entre nuestros objetivos detectarcurvas atípicas que están excesivamente alejadas gráficamente del resto de las curvas, ypor el contrario se consideran atípicos de baja magnitud, de forma y atípicos parciales, que sonmás difíciles de detectar con los procedimientos que ya existen en la literatura. En este sentido,se pondrá en evidencia que en este tipo de problemas existen diferencias sustanciales entre lasprofundidades y los métodos de análisis, mientras que estas diferencias tienden a ser menoresen problemas más sencillos o visualmente más evidentes.En relación con el problema de clasificación funcional, existen en la literatura métodos basados en el uso de las profundidades funcionales. En esta tesis se consideran tres procedimientosde este tipo, y por primera vez se combinan con varias profundidades funcionales (KFSDy seis más) con el objetivo de establecer comparativas entre métodos y/o profundidades conlos mismos escenarios. El resultado principal que se observa es que KFSD se destaca entresus competidores. De hecho, KFSD, cuando se utiliza junto a uno de los métodos conocidos como el procedimiento de profundidad máxima en los grupos, muestra los resultados mejoresy más estables a lo largo de un estudio de simulación que considera seis procesos diferentespara generar las curvas, así como en la clasificación de dos conjuntos de datos reales. Por lotanto, los resultados obtenidos sustentan la introducción de KFSD como nueva profundidad funcional.Por lo que se refiere a la detección de curvas atípicas, también se consideran algunos procedimientosya existentes basados en el uso de la noción de profundidad y el grupo de sietesprofundidades mencionado arriba. Además, se proponen tres nuevos métodos diseñados exclusivamentepara KFSD. Todos ellos se basan en una característica deseable en una profundidadfuncional, es decir, que ésta asigne un valor de profundidad baja a una curva atípica.Durante nuestra investigación, se ha observado que KFSD posee esta característica. Además,gracias a su enfoque local, KFSD es en general capaz de ordenar correctamente los atípicosque no se destacan claramente en un gráfico. Sin embargo, un valor bajo de KFSD no es suficientepara detectar curvas atípicas, y es necesario tener a disposición un valor umbral paraKFSD para distinguir entre curvas normales y atípicas. De hecho, los tres métodos que sepresentan ofrecen formas alternativas para elegir un umbral para KFSD. Desde un punto devista metodológico, estos procedimientos están respaldados por resultados teóricos de corteprobabilísticos. El estudio de simulación que se lleva a cabo para la detección de atípicos esigualmente extenso como en el caso de clasificación. Además de nuestras propuestas, se considerantres métodos existentes que están basados en el uso de profundidades funcionales ydos técnicas que no utilizan profundidades funcionales. Los resultados de este segundo estudiode simulación son también positivos: los métodos basados en KFSD que se proponen enesta tesis resultan ser los procedimientos que detectan mejor los atípicos para un conjunto de seis escenarios simulados y para las dos probabilidades de contaminación que se consideran.En resumen, en esta tesis se presenta una nueva profundidad funcional local, KFSD, queresulta ser una herramienta útil en clasificación supervisada cuando se utiliza conjuntamentecon algunos métodos basados en el uso de profundidades, y en la detección de curvas atípicaspor medio de algunos nuevos procedimientos que también se presentan en este trabajo. YR 2014 FD 2014-06 LK https://hdl.handle.net/10016/19859 UL https://hdl.handle.net/10016/19859 LA eng NO Mención Internacional en el título de doctor NO The author and the advisors had the partial support of the following research projects: Spanish Ministry of Science and Innovation grant ECO2011-25706 and by Spanish Ministry of Economy and Competition grant ECO2012-38442. DS e-Archivo RD 21 may. 2024