Statistical analysis of semi-supervised algorithms for tabular data
Luan de Oliveira Silveira
DISSERTAÇÃO
Inglês
T/UNICAMP Si39s
[Análise estatística de algoritmos semi-supervisionados para dados tabulares]
Campinas, SP : [s.n.], 2024.
1 recurso online (123 p.) : il., digital, arquivo PDF.
Orientador: Jacques Wainer
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Considerando os benefícios e limitações de cada paradigma de aprendizagem no campo de Aprendizado de Máquina, a área de semi-supervisão vem ganhado destaque em sua tentativa de extrair informação de dados rotulados e não-rotulados simultaneamente. Em sua essência, busca uma performance...
Ver mais
Resumo: Considerando os benefícios e limitações de cada paradigma de aprendizagem no campo de Aprendizado de Máquina, a área de semi-supervisão vem ganhado destaque em sua tentativa de extrair informação de dados rotulados e não-rotulados simultaneamente. Em sua essência, busca uma performance comparável à aprendizagem supervisionada, enquanto se mantém fácil e barata de ser treinada. Dado o rico ecossistema de algoritmos nesta área, nós propomos uma avaliação de 10 métodos em um grupo diverso de bancos de dados, além de diferentes cenários de disponibilidade de dados. Ademais, propomos uma análise estatística das acurácias global, positiva e negativa como métricas de performance, seguida de testes estatísticos para a análise de diferenças significativas entre os métodos como um grupo, além de diferenças par-a-par, sendo possível determinar algoritmos que superam outros com consistência
Ver menos
Abstract: Given the strengths and weaknesses of each learning paradigm in Machine Learning, the semi-supervised setting have been gaining traction as an attempt to extract information of both labeled and unlabeled data. Aiming at a performance akin to its supervised counterpart, but being as easy...
Ver mais
Abstract: Given the strengths and weaknesses of each learning paradigm in Machine Learning, the semi-supervised setting have been gaining traction as an attempt to extract information of both labeled and unlabeled data. Aiming at a performance akin to its supervised counterpart, but being as easy and cheap to train as an unsupervised approach. Given the rich ecosystem of algorithms in this field, we propose an evaluation of 10 methods in a diverse group of datasets and different scenarios of data availability. We aim at a statistical analysis of the global, positive and negative accuracies as the metrics of performance, with following statistical tests to access differences among the methods as a group, as well as pairwise similarities. Being also possible to determine methods that consistently outperform others in a given training setting
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Statistical analysis of semi-supervised algorithms for tabular data
Luan de Oliveira Silveira
Statistical analysis of semi-supervised algorithms for tabular data
Luan de Oliveira Silveira