Toxicity mitigation with retrieval-augmented language models applied to english and portuguese text generation
Luiza Amador Pozzobon
DISSERTAÇÃO
Inglês
T/UNICAMP P879t
[Mitigação de toxicidade com modelos de linguagem aumentados por busca para geração de texto em inglês e português]
Campinas, SP : [s.n.], 2024.
1 recurso online (73 p.) : il., digital, arquivo PDF.
Orientadores: Paula Dornhofer Paro Costa, Eduardo Alves do Valle Junior
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Faculdade de Engenharia Elétrica e de Computação
Resumo: Grandes modelos de linguagem alcançaram capacidades impressionantes de geração e compreensão textual através de treino autosupervisionado ao longo dos anos. Enquanto aprendem a prever a próxima palavra, esses modelos mapeiam o conhecimento humano e criam sua própria representação da...
Ver mais
Resumo: Grandes modelos de linguagem alcançaram capacidades impressionantes de geração e compreensão textual através de treino autosupervisionado ao longo dos anos. Enquanto aprendem a prever a próxima palavra, esses modelos mapeiam o conhecimento humano e criam sua própria representação da linguagem. Dado este cenário irrestrito, é natural que esses modelos eventualmente gerem texto com conteúdo tóxico ou danoso que são originalmente encontrados em textos da internet. Felizmente, uma vasta quantia de trabalhos objetiva a redução da quantia de toxicidade que é gerada por esses modelos. Em contrapartida, esses trabalhos são aplicados exclusivamente para a língua inglesa. Como modelos de linguagem tem se tornado multilínguas e usados universalmente, é crucial que as medidas de segurança acompanhem a tendência. Nesse trabalho, somos os primeiros a explorar como mitigar toxicidade para geração livre de texto em português. Antes disso, propomos o Goodtriever: uma técnica de mitigação de toxicidade que se aproveita da aumentação por busca. Com acesso a exemplos de frases tóxicas e não tóxicas em memórias externas (datastores), as predições dos próximos tokens geradas pelo Goodtriever são combinadas para reduzir a toxicidade total do texto gerado. O Goodtriever tem performance equiparável ao estado da arte em avaliações na língua inglesa, mas é 43% mais rápido na geração de texto. Além disso, nós mostramos como o Goodtriever é eficiente tanto em relação ao número de parâmetros quanto ao número de dados utilizados ao aplicá-lo em modelos-base de 124M a 6.9B de parâmetros. Finalmente, aplicamos o Goodtriever em três modelos-base que suportam geração de texto na língua portuguesa. Propomos um conjunto de avaliação para geração de texto que permite a geração de continuações de alta qualidade a partir desses modelos. Isso é desafiador, já que a maioria dos conjuntos de dados que contém conteúdo danoso em português são de baixa qualidade, originários de conteúdos ruidosos de redes sociais. Em contraste com o inglês, mostramos como a toxicidade base de texto gerado em português é significativamente maior. Conclui-se que a diferença da toxicidade base está ligada a descalibrações da ferramenta de avaliação de toxicidade mais utilizada, Perspective API, e mostramos as dificuldades em comparar e mitigar toxicidade em múltiplas línguas
Ver menos
Abstract: Large language models have achieved remarkable text generation and understanding capabilities through self-supervised pretraining over the years. While learning to predict the next word, these models map human knowledge and create their own representation of language. Given this...
Ver mais
Abstract: Large language models have achieved remarkable text generation and understanding capabilities through self-supervised pretraining over the years. While learning to predict the next word, these models map human knowledge and create their own representation of language. Given this unrestrained scenario, it is only natural that they eventually generate toxic or harmful content that is originally found in data from the web. Fortunately, there has been a handful of work focusing on reducing the amount of toxicity that is generated by models. The downside is that they are solely applied to the English language. As language models become multilingual and universally used, it is crucial that safety guardrails accompany that trend. In this work, we are the first to explore how to mitigate toxicity in open-ended Portuguese text generation. Before doing that, we propose Goodtriever: a toxicity mitigation technique that leverages retrieval-augmentation. With access to both toxic and non-toxic sentence examples in external memories (datastores), Goodtriever's next-token predictions are ensembled in a way to reduce the overall toxicity of the generated text. It matches state-of-the-art results in English language benchmarks while being 43% faster to produce text. Moreover, we show how Goodtriever is both data and parameter-wise efficient by applying it to models from 124M to 6.9B parameters. Finally, we traverse to other languages and implement Goodtriever on top of three different base models that support Portuguese text generation. We propose an evaluation dataset for open-ended text generation that enables high-quality continuations from these models. This is challenging, as most datasets that contain harmful content for prompting in Portuguese are of low quality, originated from noisy social media content. In contrast to English, we show how the base toxicity of Portuguese-generated text is significantly higher. We conclude the difference in base toxicity is tied to miscalibrations from the most widely used toxicity evaluation engine, Perspective API, and lay down the difficulties in comparing and mitigating toxicity across languages
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Costa, Paula Dornhofer Paro, 1978-
Orientador
Valle, Eduardo, 1978-
Coorientador
Avila, Sandra Eliza Fontes de, 1982-
Avaliador
Nogueira, Rodrigo Frassetto, 1986-
Avaliador
Toxicity mitigation with retrieval-augmented language models applied to english and portuguese text generation
Luiza Amador Pozzobon
Toxicity mitigation with retrieval-augmented language models applied to english and portuguese text generation
Luiza Amador Pozzobon