Transformers-based few-shot learning for scene classification in child abuse imagery : Aprendizado por poucas amostras baseado em Transformers para classificação de cenas em imagens de abuso sexual infantil
Thamiris Florindo Coelho
DISSERTAÇÃO
Inglês
T/UNICAMP C65t
[Aprendizado por poucas amostras baseado em Transformers para classificação de cenas em imagens de abuso sexual infantil]
Campinas, SP : [s.n.], 2023.
1 recurso online (78 p.) : il., digital, arquivo PDF.
Orientadores: Sandra Eliza Fontes de Avila, Jefersson Alex dos Santos
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: O abuso sexual é um crime que afeta muitas crianças ao redor do mundo. Só no último ano foram feitas mais de 32 milhões de denúncias de abuso sexual infantil foram feitas para o Centro Nacional para Crianças Desaparecidas e Exploradas. Infelizmente, o volume de material multimídia produzido...
Ver mais
Resumo: O abuso sexual é um crime que afeta muitas crianças ao redor do mundo. Só no último ano foram feitas mais de 32 milhões de denúncias de abuso sexual infantil foram feitas para o Centro Nacional para Crianças Desaparecidas e Exploradas. Infelizmente, o volume de material multimídia produzido diariamente é muito maior do que a capacidade de análise visual feita por profissionais da aplicação da lei. Nesse contexto, ter uma ferramenta confiável que classifique automaticamente o material de abuso sexual infantil é essencial. Métodos de Aprendizado Profundo, estado da arte para problemas de classificação de imagem, demandam grandes quantidades de dados para treinamento. Mesmo com um grande volume de dados disponíveis, a anotação dessas imagens é muito custosa. Além disso, devido a barreiras legais e éticas, esses dados sensíveis só podem ser acessados por agentes da polícia. Para lidar com isso, alguns métodos tentam ajudar as investigações resolvendo um problema computacional relacionado. A classificação de cenas internas pode ajudar a detectar ambientes nos quais esse tipo de conteúdo é tipicamente composto. No entanto, nesses ambientes, a presença de um objeto pode mudar completamente a classificação. Módulos de atenção da arquitetura Transformers podem ajudar o modelo a focar nas partes essenciais dos dados para resolver algumas tarefas. Assim, para focar em objetos presentes em cenas, esse trabalho utiliza modelos baseados em Transformers. Além disso, para lidar com o desafio de anotar os dados, utilizamos aprendizagem com poucas amostras (few-shot learning), uma técnica de aprendizado supervisionado que aprende utilizando poucas amostras anotadas. Nesta dissertação de mestrado analisamos alguns modelos de few-shot learning clássicos e comparamos modelos baseados em Transformers para classificação de cenas de ambientes internos. Observamos também que a maioria dos trabalhos analisados utiliza um mesmo método de agrupamento de vetores de características, portanto, nesse sentido investigamos o uso de diferentes métodos, concluindo que agregar os vetores utilizando a média é o melhor para o conjunto de cenas internas. Nossos resultados indicam que o uso de Transformers é benéfico no contexto de classificação de cenas internas. Além disso, para o conjunto de dados de cenas internas utilizado, utilizar a média para agregar os vetores de características levou aos melhores resultados, provavelmente porque no nosso contexto a média foi uma boa representação. Nosso modelo final atingiu 73,50 ± 0,09% de acurácia com 95% de confiança na tarefa de classificação de cenas internas utilizando apenas 5 amostras anotadas por classe para a classificação. Em cooperação com especialistas da Polícia Federal Brasileira pudemos avaliar nosso modelo em um conjunto de dados de abuso sexual infantil anotado para cenas internas, nosso modelo atingiu uma acurácia balanceada com 95% de confiança de 63,38 ± 0,09%, avaliamos que os resultados foram promissores, indicando que a utilização da técnica proposta pode auxiliar em um processo de triagem
Ver menos
Abstract: Sexual abuse is a crime that affects many children around the world. In just the past year, more than 32 million reports of child sexual abuse were made to the National Center for Missing & Exploited Children. Unfortunately, the volume of multimedia material produced daily is much greater...
Ver mais
Abstract: Sexual abuse is a crime that affects many children around the world. In just the past year, more than 32 million reports of child sexual abuse were made to the National Center for Missing & Exploited Children. Unfortunately, the volume of multimedia material produced daily is much greater than the visual analysis capacity of law enforcement agents. In this context, having a reliable tool that can automatically classify child sexual abuse material is essential. Deep learning methods, state-of-the-art for image classification problems, require large amounts of data for training. Even with a large volume of available data, annotating these images is very costly. Additionally, law enforcement agents can only access this sensitive data due to legal and ethical barriers. To address this, some methods try to assist investigations by solving a related computational problem. The classification of indoor scenes can help detect environments where this type of content is typically found. However, in these environments, the presence of an object can completely change the classification. Attention modules of the Transformer architecture can help the model focus on the essential parts of the data to solve some tasks. Thus, this work utilizes Transformer-based models to focus on objects present in scenes. Also, to address the challenge of annotating data, we use few-shot learning, a supervised learning technique that learns using a few annotated samples. In this Master's thesis, we analyze some classic few-shot learning models and compare Transformer-based models for the classification of indoor scenes. We also observe that most of the analyzed works use the same method for aggregating feature vectors; therefore, in this regard, we investigate using different methods, concluding that aggregating vectors using the mean is the best for the set of indoor scenes. Our results indicate that using Transformers is beneficial in indoor scene classification. Furthermore, for the dataset of indoor scenes used, using the mean to aggregate feature vectors led to the best results, probably because, in our context, the mean was a good representation. Our final model achieved an accuracy of 73.50 ± 0.09% with 95% confidence in classifying indoor scenes using only 5 annotated samples per class for classification. In cooperation with experts from the Brazilian Federal Police, we evaluated our model on a dataset of annotated child sexual abuse for indoor scenes, and our model achieved a balanced accuracy of 63.38 ± 0.09% with 95% confidence. We believe the results were promising, indicating that the proposed technique can assist in screening
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Avila, Sandra Eliza Fontes de, 1982-
Orientador
Santos, Jefersson Alex dos, 1984-
Coorientador
Ponti, Moacir Antonelli
Avaliador
Colombini, Esther Luna, 1980-
Avaliador
Transformers-based few-shot learning for scene classification in child abuse imagery : Aprendizado por poucas amostras baseado em Transformers para classificação de cenas em imagens de abuso sexual infantil
Thamiris Florindo Coelho
Transformers-based few-shot learning for scene classification in child abuse imagery : Aprendizado por poucas amostras baseado em Transformers para classificação de cenas em imagens de abuso sexual infantil
Thamiris Florindo Coelho