Self-supervised learning for fully unsupervised re-identification in real-world applications
Gabriel Capiteli Bertocco
TESE
Inglês
T/UNICAMP B462s
[Aprendizado auto-supervisionado para re-identificação totalmente não-anotada em aplicações no mundo real]
Campinas, SP : [s.n.], 2024.
1 recurso online (161 p.) : il., digital, arquivo PDF.
Orientadores: Anderson de Rezende Rocha, Fernanda Alcântara Andaló
Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Um dos problemas mais complexos em Aprendizado de Máquina é lidar com dados não rotulados. A maioria dos modelos com alto desempenho depende de massiva quantidade de dados rotulados para obter os melhores resultados. No entanto, rotulação não é fácil nem confiável por ser uma tarefa...
Ver mais
Resumo: Um dos problemas mais complexos em Aprendizado de Máquina é lidar com dados não rotulados. A maioria dos modelos com alto desempenho depende de massiva quantidade de dados rotulados para obter os melhores resultados. No entanto, rotulação não é fácil nem confiável por ser uma tarefa altamente demorada, custosa e propensa a erros. Além disso, vieses nos dados rotulados podem ser propagados para o modelo, prejudicando seu desempenho e generalização. Assim, é primordial desenvolver métodos que possam encontrar padrões em cenários totalmente não supervisionados, permitindo uma implementação rápida e menos propensa a vieses. Esses modelos podem ser usados em diversas aplicações, como investigações forenses, biometria e compreensão de eventos. Esta pesquisa propõe algoritmos de aprendizado auto-supervisionado para lidar com dados não rotulados em cenários desafiadores. Um cenário desafiador pode conter alta disparidade intraclasse (representações da mesma classe estão distantes umas das outras no espaço vetorial) e alta similaridade interclasse (amostras de classes diferentes podem estar mais próximas umas das outras). Para instanciar esse complexo requisito com os desafios mencionados, nossa exploração se concentra em duas aplicações: ReIdentificação (ReID) Não Supervisionada de Pessoas e Objetos, devido à sua aplicabilidade em compreensão de eventos, e Atribuição de Autoria em Texto. Considerando essas aplicações, nesta tese, propomos quatro métodos que lidam com níveis variados de complexidade em cenários não supervisionados. Nossas três primeiras soluções visam a tarefa de ReID Não Supervisionado de Pessoas, onde assumimos que não temos a anotação de identidade, ou seja, não sabemos "quem" foi detectado na imagem. A primeira solução considera meta-informações, como anotação de câmera, para auxílio na resolução da tarefa. Como existem cenários onde informação de câmera não está disponível, nossa segunda solução é totalmente não supervisionada, ou seja, não requer nenhuma informação adicional. Assim, pode-se aplicá-la em outras tarefas, em diferentes modalidades, como Atribuição de Autoria em Texto em postagens em redes sociais. O terceiro método também lida com cenários de reidentificação não supervisionada, mas com conjuntos de dados em grande escala. Mostramos também que podemos estendê-la para reidentificação de objetos, como, por exemplo, veículos. A quarta solução considera o problema de reconhecimento de longo alcance por meio de treinamento supervisionado. O modelo aprende com imagens distorcidas devido à turbulência atmosférica, e alcança resultados estado-da-arte em ambas as tarefas de ReID de Pessoas e Reconhecimento Facial. As soluções propostas nesta pesquisa podem ser acopladas em pipelines de aplicações forenses e de biometria. Elas podem ser empregadas para compreensão de eventos, em que as autoridades visam encontrar suspeitos e investigar o comportamento das pessoas, bem como relações com objetos em uma cena. As soluções podem ser usadas para obter uma compreensão do que ocorreu e propor caminhos de investigação. Elas também podem ser empregadas em modelos de biometria baseados em IA para proteção em lugares que exigem alta segurança, como instalações governamentais, segurança de fronteiras, infraestrutura crítica e anti-terrorismo
Ver menos
Abstract: One of the most complex problems in Machine Learning is dealing with unlabeled data. Most top-ranking models rely on massive labeled data to achieve state-of-art results. However, data labeling is not easy nor reliable to obtain due to the highly time-consuming, costly, and error-prone...
Ver mais
Abstract: One of the most complex problems in Machine Learning is dealing with unlabeled data. Most top-ranking models rely on massive labeled data to achieve state-of-art results. However, data labeling is not easy nor reliable to obtain due to the highly time-consuming, costly, and error-prone task of annotation. Moreover, bias in the labeled data might be propagated to the model, hindering its performance and generalization. It is paramount to develop methods that can mine patterns in a fully-unsupervised scenario allowing a fast and bias-alleviated deployment. These models could be used in a range of applications, such as forensic investigations, biometrics, and event understanding. This research proposes self-supervised learning algorithms to deal with unlabeled data for deployment in challenging label-absent scenarios. A challenging setup might contain high intra-class disparity (features from the same class are far away from each other in the feature space) and high inter-class similarity (samples from different classes might be closer to each other). To instantiate this complex requirement with applications that capture the mentioned challenges, our exploration focuses on two applications: Unsupervised Re-Identification (ReID) of People and Objects, due to their applicability to event understanding, and on the Text Authorship Verification task. Considering these applications, in this thesis, we propose four methods that deal with varied levels of complexity in unsupervised scenarios. Our first three solutions target the Unsupervised Person ReID task where we assume we do not have identity labeling, i.e., we do not know "who" is detected in the image. The first solution considers meta-information, such as camera labels, to effectively address the task. As there are scenarios where it is not applicable, our second solution is fully unsupervised, i.e., it does not require any side information. Because of this, it can be applied to further tasks than Person ReID in different modalities, such as Text Authorship Attribution in social media posts. The third method also deals with fully unsupervised re-identification scenarios but in large-scale datasets. We also show that this solution can be applied to object re-identification, specifically vehicles. The fourth solution changes the setup by considering supervised training, however targeting long-range recognition. It learns from images mainly distorted by atmospheric turbulence and achieves state-of-the-art results in both Person ReID and Face Recognition tasks. The proposed solutions can be implemented as part of forensic and biometrics pipelines. For instance, they can be employed for event understanding where authorities aim to find possible suspects and investigate people's behavior as well as their possible relationships with objects in a scene. They can be used to get an understanding of what happened and possible investigation insights. The solutions can be also employed in AI-powered biometrics for security-sensitive protection in places such as government facilities, border security, critical infrastructure, and counterterrorism
Ver menos
Aberto
Rocha, Anderson de Rezende, 1980-
Orientador
Andaló, Fernanda Alcântara, 1981-
Coorientador
Marcel, Sébastien
Avaliador
Struc, Vitomir
Avaliador
Colombini, Esther Luna, 1980-
Avaliador
Flynn, Patrick
Avaliador
Self-supervised learning for fully unsupervised re-identification in real-world applications
Gabriel Capiteli Bertocco
Self-supervised learning for fully unsupervised re-identification in real-world applications
Gabriel Capiteli Bertocco