Pseudo labeling and classification of high-dimensional data using visual analytics
Bárbara Caroline Benato
TESE
Inglês
T/UNICAMP B431p
[Pseudo rotulação e classificação de dados de alta dimensionalidade usando analítica visual]
Campinas, SP : [s.n.], 2024.
1 recurso online (214 p.) : il., digital, arquivo PDF.
Orientador: Alexandre Xavier Falcão
Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação, em cotutela: Utrecht University, Holanda
Resumo: Aprendizado de máquina (do inglês, Machine Learning (ML)) explora dados contendo de dezenas até dezenas de milhares de medições (dimensões) por amostra/exemplo. À medida que o número de dimensões e/ou amostras cresce, também cresce a dificuldade de compreensão do dado em questão e,...
Ver mais
Resumo: Aprendizado de máquina (do inglês, Machine Learning (ML)) explora dados contendo de dezenas até dezenas de milhares de medições (dimensões) por amostra/exemplo. À medida que o número de dimensões e/ou amostras cresce, também cresce a dificuldade de compreensão do dado em questão e, relacionado a isso, a compreensão de como projetar modelos de ML que processam tais dados de forma eficaz para tarefas como classificação de dados. Visualização, e em particular analítica visual (Visual Analytics (VA)), tem emergido como uma das abordagens chave para ajudar profissionais no entendimento de dados de alta dimensionalidade e de tarefas de engenharia de ML. Tal tese ocupa-se em estudar diversas abordagens nas quais VA pode auxiliar ML (e vice-versa), como a seguir. O presente trabalho foca em uma técnica de visualização denominada redução de dimensionalidade (dimensionality reduction), ou projeção, a qual lida eficientemente e efetivamente com grandes quantidades de dados de alta dimensionalidade. Considerando ML, considera-se a tarefa de treinar um classificador típico para o contexto desafiador onde apenas uma pequena quantidade de rótulos (label) verdadeiros está disponível. Primeiramente, é proposta uma abordagem de pseudo rotulação que explora a habilidade de projeções em gerar um espaço de características reduzido com informação suficiente para melhorar a performance do aprendizado de características e do classificador ao longo das iterações. Como resultado, mostra-se que o espaço 2D gerado a partir de projeções pode capturar de forma satisfatória a estrutura do dado presente em altas dimensões de forma a auxiliar no projeto de modelos de aprendizado de características e classificação de alta performance. Além disso, propõe-se relacionar os conceitos de separação de dados DS, separação visual (VS) e performance do classificador (CP) através da pseudo rotulação e projeções de dados. Um espaço de características com alta DS é usado como entrada para computar projeções com alta VS. Tais projeções são, então, empregadas para realizar a pseudo rotulação com altas acurácias de propagação de rótulos. Por fim, esses rótulos são utilizados para treinar um classificador com uma alta CP. A implicação entre alta DS, alta VS e alta CP é mostrada para diferentes tipos de técnicas de projeção, as quais indicaram ser adequadas para a tarefa de engenharia de classificadores. Adicionalmente, a constatação anteriormente mencionada de que alta VS e alta CP estão correlacionadas é explorada para propôr uma métrica para acessar a VS de gráficos de dispersão 2D resultantes de técnicas de projeções. A métrica proposta com puta a acurácia da propagação de rótulos no espaço projetado, o que torna a métrica mais simples e de mais rápida de executar. As altas acurácias de propagação mostram uma correlação com uma alta VS encontrada por seres humanos. Finalmente, as contribuições encontradas são agregadas a fim de incorporar o usuário no processo de engenharia de modelos de ML. É proposta uma ferramenta interativa de VA que auxilia o usuário na rotulação manual de amostras ao fornecer informação adicional referente a mapas de bordas de decisão de classificado res, erros de projeção, e erros de projeção inversa. Os resultados mostram que essa abordagem permite que o usuário possa rapidamente gerar novos rótulos para as amostras. Tais amostras rotuladas conduzem a maiores performances de classificação após algumas iterações apenas. Esta contribuição mostra que ambos, algoritmos e seres humanos, podem explorar projeções para a construção de melhores classificadores
Ver menos
Abstract: Machine learning (ML) works with data consisting of tens up to tens of thousands of measurements (dimensions) per sample. As the number of dimensions and/or samples grow, so does the difficulty of understanding such data and, related to that, understanding how to design ML pipelines that...
Ver mais
Abstract: Machine learning (ML) works with data consisting of tens up to tens of thousands of measurements (dimensions) per sample. As the number of dimensions and/or samples grow, so does the difficulty of understanding such data and, related to that, understanding how to design ML pipelines that effectively process such data for tasks such as classification. Visualization, and in particular Visual Analytics (VA) has emerged as one of the key approaches that helps practitioners with the understanding of high-dimensional data and with ML engineering tasks. This the sis studies several novel approaches by which VA can help ML (and conversely), as follows. Our work focuses on a visualization technique called dimensionality reduction, or projection, which handles efficiently and effectively large amounts of high-dimensional data. One the ML side, we consider the task of training a typical classifier for the challenging context when only a small amount of ground-truth labels is available. We first propose a pseudo-labeling approach that explores the ability of projections to generate a reduced feature space with enough information to improve feature learning and classifier performance over iterations. We show that the 2D space generated by projections can capture very well the data structure present in high dimensions so as to support the design of high performance feature and classifier learning models. Secondly, we link data separation (DS), visual separation (VS), and classifier performance (CP) by pseudo-labeling and projections. We use feature spaces with high DS as input to compute high-VS projections. We use these projections to perform pseudo labeling with high propagation accuracies. Finally, we use such labels to train classifiers with a high CP. We show that the highDS, high-VS, high-CP implication holds for several types of pro jection techniques. Hence, such projection techniques are suitable for the task of classifier engineering. Thirdly, we exploit the aforementioned observation that highVS and high-CP are correlated to propose a metric to assess the VS of labeled 2D scatterplots produced by projection techniques. Our metric computes the accuracy of label propagation in the projection space, which is simple and fast to execute. We show that high propagation accuracies match a high VS as assessed by human subjects. Finally, we join all our contributions to incorporate the user in the ML engineering process. We propose an interactive VA tool that assists users in manual labeling samples by providing additional information in terms of classifier decision boundary maps, projection errors, and inverse projection errors. Our results show that this approach enables users to quickly generate labeled samples that lead to higher classification performance after a few labeling iterations. This contribution shows that both algorithms and humans can exploit projections to build better classifiers
Ver menos
Aberto
Falcão, Alexandre Xavier, 1966-
Orientador
Telea, Alexandru Cristian, 1972-
Coorientador
Araújo, Guido Costa Souza de, 1962-
Avaliador
Rocha, Anderson de Rezende, 1980-
Avaliador
Salah, Albert Ali
Avaliador
Hardman, Lynda, 1960-
Avaliador
Velegrakis, Yannis, 1973-
Avaliador
Lotufo, Roberto de Alencar, 1955-
Avaliador
Pseudo labeling and classification of high-dimensional data using visual analytics
Bárbara Caroline Benato
Pseudo labeling and classification of high-dimensional data using visual analytics
Bárbara Caroline Benato