Multilingual abstractive summarization of podcasts with Longformers [recurso eletrônico] = Sumarização abstrativa multilíngue de podcasts utilizando Longformers
Edgar Kenji Tanaka
DISSERTAÇÃO
Inglês
T/UNICAMP T153m
[Sumarização abstrativa multilíngue de podcasts utilizando Longformers]
Campinas, SP : [s.n.], 2022.
1 recurso online (88 p.) : il., digital, arquivo PDF.
Orientadores: Jacques Wainer, Ann Clifton
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Podcasts se estabeleceram como uma importante fonte de conteúdo em áudio nos dias de hoje. Conforme o número de podcasts aumenta, fica cada vez mais evidente a necessidade de boas descrições que ajudem usuários a decidir se vão ou não escutar a um determinado episódio. No entanto, as...
Ver mais
Resumo: Podcasts se estabeleceram como uma importante fonte de conteúdo em áudio nos dias de hoje. Conforme o número de podcasts aumenta, fica cada vez mais evidente a necessidade de boas descrições que ajudem usuários a decidir se vão ou não escutar a um determinado episódio. No entanto, as descrições fornecidas pelos criadores de podcasts geralmente carecem de informações importantes sobre o episódio. Além disso, estas descrições são frequentemente usadas para propaganda de produtos ou divulgação de redes sociais. Como alternativa a essas descrições fornecidas pelos criadores, a tarefa de sumarização automática de podcasts foi proposta na conferência TREC 2020. Muitos pesquisadores propuseram diferentes modelos baseados em deep learning para resolver esse problema. No entanto, todos modelos propostos estavam restritos a apenas podcasts em inglês. À medida que o consumo de podcasts aumenta globalmente, é fundamental explorar modelos capazes de ingerir e gerar texto em vários idiomas. Nesta dissertação de mestrado, investigamos a aplicação de modelos multilíngues baseados em transformadores para gerar automaticamente resumos abstrativos a partir de transcrições de podcasts. Experimentamos e contrastamos modelos com um mecanismo de full self-attention e um mecanismo de Longformer self-attention. Além disso, estudamos o impacto do ajuste fino desses modelos de forma monolíngue e bilíngue. Por fim, exploramos o fenômeno de cross lingual transfer learning no contexto de sumarização de podcasts multilíngue. O escopo de nossa pesquisa se limita ao inglês e português, mas a metodologia proposta aqui pode ser generalizada para qualquer outro conjunto de idiomas
Ver menos
Abstract: Podcasts are now established as an important source of audio content today. As the number of podcast shows increases, so has the need for high-quality descriptions which assist consumers to decide whether to listen to an episode or not. However, descriptions provided by podcast creators...
Ver mais
Abstract: Podcasts are now established as an important source of audio content today. As the number of podcast shows increases, so has the need for high-quality descriptions which assist consumers to decide whether to listen to an episode or not. However, descriptions provided by podcast creators often lack important information about the episode. Not only that, they are often used for self-promotion instead of describing the actual content. As an alternative to the creator provided descriptions, the task of automatic podcast summarization was proposed in the TREC conference 2020. Many researchers proposed different deep learning based models to solve this problem but they were all restricted to podcasts in English. As podcast consumption continues to rise globally, it is critical to explore models capable of ingesting and generating text in multiple languages. In this Master thesis, we investigate the application of transformer-based multilingual models to automatically generate abstractive summaries from podcast transcripts. We experiment and contrast models with a full self-attention mechanism and a Longformer attention mechanism. In addition, we study the impact of finetuning these models monolingually and bilingually. Lastly, we explore cross lingual transfer learning in this domain of multilingual podcast summarization. We scope our research to English and Portuguese but the methodology proposed can be generalized to any other set of languages
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Multilingual abstractive summarization of podcasts with Longformers [recurso eletrônico] = Sumarização abstrativa multilíngue de podcasts utilizando Longformers
Edgar Kenji Tanaka
Multilingual abstractive summarization of podcasts with Longformers [recurso eletrônico] = Sumarização abstrativa multilíngue de podcasts utilizando Longformers
Edgar Kenji Tanaka