Análisis de estructura temporal de datos musicales para clasificación

Arenas García, JerónimoLópez García, María Victoria2016-04-262016-04-262014-072014-07-18https://hdl.handle.net/10016/22855La Recuperación de Información Musical constituye un campo de investigación muy activo que se nutre de muy diversas disciplinas, como Musicología, Acústica, Psicología o Aprendizaje Máquina. En el ámbito académico el resultado es la edición anual de numerosas publicaciones. La industria musical también ha sufrido una gran transformación en las últimas décadas debido a las nuevas reglas que ha impuesto la distribución digital. Actualmente la mayoría de los usuarios puede acceder a grandes colecciones de canciones y escucharla en los dispositivos móviles existentes (reproductores MP3, iPods, smartphones, etc.). En este contexto es imprescindible desarrollar sistemas que ayuden a los usuarios a organizar estas bases de datos musicales o a acceder fácilmente a canciones acordes a sus preferencias. Los sistemas de recomendación han ganado una gran popularidad y son ya parte habitual en sitios de compra por Internet. En los sitios de descarga musical son capaces de generar listas de reproducción basándose en las descargas previas del usuario. Estos sistemas de recomendación automática normalmente están fundamentados en algoritmos de aprendizaje máquina que son capaces de extraer información relevante de las canciones tras una fase de entrenamiento; para ello se consideran varias tareas cuyo objetivo es extraer información de bajo y alto nivel de la señal de audio. Este Proyecto se ha centrado en la extracción de descriptores de alto nivel y en estudiar un esquema utilizado previamente en clasificación de género musical, reconocimiento de portadas de álbumes, reconocimiento de instrumentos, etc. La mayor dificultad a la que se enfrentan estos esquemas es la de cubrir el escalón existente entre los descriptores de bajo nivel, que se pueden extraer de los archivos de audio (usualmente bajo la forma de Coeficientes Cepstrales de Frecuencia en escala Mel, MFCC) y la información semántica que pretenden recuperar (por ejemplo, el género de la canción). Los sistemas que se van a estudiar en este Proyecto se basan en la concatenación de los siguientes pasos: extracción de descriptores de bajo nivel, integración temporal de características y clasificación automática. La primera etapa, la extracción de descriptores de bajo nivel, está implementada como extracción de coeficientes MFCC, si bien también se podrían considerar otros descriptores. A pesar de que originalmente fueron propuestos para tareas de reconocimiento de voz, los coeficientes MFCC han ganado su propio espacio en la Recuperación de Información Musical debido a su excelente desempeño en sistemas basados en representación espectral. El objetivo de la fase de integración temporal es concentrar la información de los MFCC de varias ventanas consecutivas de corta duración (la escala habitual es de 20-40 ms.) en un único vector de características en el que está representada la información más relevante a una escala de tiempos mayor. Este punto es de gran importancia, pues la información de alto nivel requerida sólo se puede detectar en esta nueva escala temporal, por tanto la simple concatenación de coeficientes MFCC de ventanas adyacentes implicaría serios inconvenientes prácticos en la siguiente fase. Finalmente, la etapa de aprendizaje máquina utiliza los datos de la etapa anterior como conjunto de entrenamiento para crear un modelo matemático cuyo propósito es predecir la información de interés de los vectores de características. En este Proyecto se han considerado como herramienta para superar esta fase los clasificadores no lineales basados en métodos de núcleos. El trabajo desarrollado en este Proyecto se concentra en la integración temporal de características y en estudiar la influencia de la duración de la ventana temporal en el proceso de clasificación musical. La hipótesis inicial es que la duración de la ventana óptima para la fase de integración depende de la tarea particular para la que el sistema está diseñado. Por esta razón se consideran dos bases de datos de canciones diferentes, una está diseñada para la clasificación de género y la otra para clasificar en función de los artistas que interpretan las canciones. Se estudiará cómo la precisión de la clasificación cambia en función de la duración de la ventana utilizada para la integración de características, a la vez que intenta arrojar alguna luz sobre la importancia de este parámetro para el correcto desempeño del sistema. La conclusión principal de este Proyecto es que una selección incorrecta del tamaño de la ventana temporal puede conducir a una funcionalidad deficiente. Por tanto, parece crucial validar correctamente su valor durante el diseño del sistema de clasificación.Music Information Retrieval (MIR) constitutes a very active research field, with many papers published every year with contributions coming from several disciplines, such as musicology, acoustics, psychology, or machine learning. The music industry has also transformed during the last decades as a consequence of digital distribution. Nowadays, most users have access to huge collections of songs, and can even carry them on portable devices (MP3 players, ipods, smartphones, etc). In this context, it becomes crucial to develop systems that can help the users to organize these music databases, or to access songs according to each personal user’s preferences. Recommender systems have gained popularity and are now common in e-commerce sites and they are even implemented in playing software in the form of automatic reproducing list generators. These automatic recommendation systems are normally based on machine learning algorithms that are trained to extract relevant information from the music. In this sense, several tasks have been considered to extract low-level and high-level information from the audio waveform. In this work, we focus on the extraction of high-level descriptors and study a classification scheme that has been used for this purpose in tasks such as genre classification, album cover detection, instrument detection, etc. The main difficulty that face these schemes is to fill the gap that exists between the low-level descriptors that can be extracted from the audio file (normally in the form of Mel Frequency Cepstral Coefficients, MFCCs) and the semantic information they want to retrieve (e.g., the genre). Página 6 The systems we study in this work consist of the concatenation of the following steps: low-level descriptor extraction, temporal feature integration, and automatic classification. The first stage, low-level descriptor extraction, is implemented in the form of MFCC extraction, although other descriptors could be considered as well. In spite of being originally proposed for speech recognition tasks, MFCCs have gained popularity in MIR because of the reported good performance of systems that are based on this spectral representation. The goal of the time integration phase is to concentrate the information of MFCCs from several consecutive short-time windows (normally in the scale of 20-40 ms), and produce a new representation in the form of a unique feature vector capturing the most relevant information at a larger time-scale. This is important because the high-level information we are looking for normally can only be detected in this larger time-scale, and the simple concatenation of MFCCs from adjacent windows would imply practical inconveniences from the point of view of the machine learning step. Finally, the machine learning module uses a training dataset of songs and creates a mathematical model that can be used to predict the information of interest from the time-integrated feature vector. In this work, non-linear classifiers based on kernel methods will be considered as the classification technology. This project work concentrates on the time integration of features, and studies the influence of the window length on the performance of the overall filter. It is expected that the length of the optimal window for the time integration phase depends on the particular task the system is designed for. For this reason, we consider two different song databases, one of them is designed for genre classification tasks, while the goal of the second one is to classify songs according to the artist. We will study how the classification accuracy changes with the length of the window used for time-feature integration, and shed some light into the importance of this parameter for the success of the overall filter. The main conclusion of our work is that a bad selection of this parameter can lead to very suboptimal performance; consequently, it seems crucial to validate its value during the design of the system.application/pdfspaAtribución-NoComercial-SinDerivadas 3.0 EspañaProceso de señalesAlgoritmosInteligencia artificialMúsicaAnálisis de estructura temporal de datos musicales para clasificaciónbachelor thesisIngeniería Industrialopen access