MLissard : multilingual long and simple sequential reasoning benchmarks
Mirelle Candida Bueno
DISSERTAÇÃO
Inglês
T/UNICAMP B862m
[MLissard]
Campinas, SP : [s.n.], 2025.
1 recurso online (31 p.) : il., digital, arquivo PDF.
Orientador: Roberto de Alencar Lotufo
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Faculdade de Engenharia Elétrica e de Computação
Resumo: Os modelos de linguagem agora são capazes de resolver tarefas que exigem lidar com longas sequências consistindo em centenas de milhares de tokens. No entanto, eles frequentemente falham em tarefas que exigem o uso repetitivo de regras simples, mesmo em sequências que são muito mais curtas...
Ver mais
Resumo: Os modelos de linguagem agora são capazes de resolver tarefas que exigem lidar com longas sequências consistindo em centenas de milhares de tokens. No entanto, eles frequentemente falham em tarefas que exigem o uso repetitivo de regras simples, mesmo em sequências que são muito mais curtas do que aquelas vistas durante o treinamento. Por exemplo, grandes modelos de linguagem (LLMs) de última geração podem encontrar itens comuns em duas listas com até 20 itens, mas falham quando as listas têm 80 itens. Esta dissertação apresenta o MLissard, um benchmark multilíngue projetado para avaliar as habilidades dos modelos de processar e gerar textos de tamanhos variados e oferece um mecanismo para controlar a complexidade da sequência. Os resultados demostraram que tanto os modelos de código aberto e proprietários apresentaram um declínio consistente no desempenho em todos as tarefas e idiomas à medida que a com- plexidade da sequência aumenta. Surpreendentemente, o uso de exemplos em contexto em idiomas diferentes do inglês ajuda a aumentar significativamente o desempenho da extrapolação
Ver menos
Abstract: Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training....
Ver mais
Abstract: Language models are now capable of solving tasks that require dealing with long sequences consisting of hundreds of thousands of tokens. However, they often fail on tasks that require repetitive use of simple rules, even on sequences that are much shorter than those seen during training. For example, state-of-the-art large language models (LLMs) can find common items in two lists with up to 20 items but fail when lists have 80 items. This paper introduces MLissard, a multilingual benchmark specifically designed to assess the performance of models in processing and generating texts of varying lengths, while also providing a mechanism to control sequence complexity. The results demonstrate that both open-source and proprietary models show a consistent decline in performance across all tasks and languages as the complexity of the sequence increases. Surprisingly, the use of in-context examples in languages other than English helps increase extrapolation performance significantly
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Lotufo, Roberto de Alencar, 1955-
Orientador
Pardo, Thiago Alexandre Salgueiro
Avaliador
Pereira, Jayr Alencar, 1994-
Avaliador
MLissard : multilingual long and simple sequential reasoning benchmarks
Mirelle Candida Bueno
MLissard : multilingual long and simple sequential reasoning benchmarks
Mirelle Candida Bueno