Publication:
Clasificación binaria en problemas desequilibrados mediante equivalencia del cociente de verosimilitudes

Loading...
Thumbnail Image
Identifiers
Publication date
2021-06
Defense date
2021-07-15
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Los Problemas Singulares son aquellos cuyas caracter´ısticas pueden comprometer el correcto funcionamiento de máquinas discriminativas convencionales, obteniendo resultados poco satisfactorios. Entre ellos destacan los problemas de clasificación desequilibrada, aquellos en los que existen grandes diferencias en las poblaciones de las clases o/y la política de costes penaliza en mayor medida la elección de determinadas clases, sesgando la salida de la máquina en favor de las clases predominantes. Por ello, se precisa la aplicación de métodos específicos que compensen el desequilibrio existente, permitiendo la detección de las clases minoritarias. Particularizando para el caso binario, se lleva a cabo un estudio del estado del arte de los métodos de re-equilibrado existentes. La mayoría de las técnicas propuestas son puramente empíricas, sin un análisis completo de las implicaciones estadísticas que tiene su aplicación. A pesar de que su uso puede ofrecer buenos resultados bajo determinadas condiciones, cualquier cambio en dichas condiciones puede producir una degradación en las prestaciones. Por ello, se presenta una metodología fundamentada en la teoría estadística bayesiana con el objetivo de construir soluciones robustas. Esta metodología se basa en el principio de invarianza del cociente de verosimilitudes, estableciendo dos condiciones suficientes y necesarias: el uso de divergencias de Bregman como coste subrogado y métodos de re-equilibrado estadísticamente neutrales. Además, se proponen procedimientos fundamentados de clasificación en dos pasos y se describe detalladamente un proceso de diseño re-equilibrado basado en la combinación de métodos. Diversos experimentos avalan la metodología, estudiando sus efectos y limitaciones en problemas reales bajo distintas circunstancias: mayor o menor número de muestras disponibles y presencia de ruido. Por último, se estudia en mayor profundidad el algoritmo SMOTE, uno de los métodos de re-equilibrado más comunes. Debido a la generación −por medio de los vecinos más próximos− filiforme de muestras, SMOTE presenta dificultades ante problemas de alta dimensionalidad. Por ello, se propone una alternativa, VoluSMOTE, para corregir o atenuar tales efectos por medio de una generación volumétrica.
Singular Problems are those whose characteristics compromise the correct operation of conventional discriminative machines, obtaining unsatisfactory results. Among them, imbalanced classification problems stand out, those in which there are large differences in the class populations or/and the cost policy penalizes to a greater extent the choice of certain classes, biasing the machine output in favor of the predominant classes. Therefore, the application of specific methods that compensate the imbalance is required, allowing the detection of the minority classes. Particularly for the binary case, a state-of-the-art survey of the existing rebalancing methods is carried out. Most of the proposed techniques are purely empirical, without a complete analysis of the statistical implications of their application. Although their use may provide good results under certain conditions, any change in these conditions may lead to a degradation of their performance. Therefore, a principled methodology based on Bayesian statistical theory is presented with the aim of constructing robust solutions. This methodology is based on the likelihood ratio invariance principle, for which two sufficient and necessary conditions are established: the use of Bregman divergences as a surrogate cost and statistically neutral rebalancing methods. In addition, principled two-step classification procedures are proposed and a rebalanced design process based on the combination of methods is described in detail. Several experiments support the methodology, studying its effects and limitations in real problems under different circumstances: larger or smaller number of available samples and presence of noise. Finally, the SMOTE algorithm, one of the most common rebalancing methods, is studied in more depth. Due to the filiform generation of samples −by means of the nearest neighbors−, SMOTE presents difficulties with high dimensionality problems. Therefore, an alternative, VoluSMOTE, is proposed to correct or mitigate such effects by volumetric generation.
Description
Keywords
Desequilibrio, Divergencias de Bregman, Cociente de verosimilitudes, Re-equilibrado fundamentado
Bibliographic citation
Collections