Cross-speaker style transfer for TTS with singing voice conversion data augmentation, style filtering and F0 matching
Leonardo Boulitreau de Menezes Martins Marques
DISSERTAÇÃO
Inglês
T/UNICAMP M348c
[Transferência de estilo entre falantes para TTS baseada no aumento de dados com conversão de voz cantada, filtragem de estilo e correspondência F0]
Campinas, SP : [s.n.], 2024.
1 recurso online (112 p.) : il., digital, arquivo PDF.
Orientador: Paula Dornhofer Paro Costa
Dissertação (mestrado) - Universidade Estadual de Campinas (UNICAMP), Faculdade de Engenharia Elétrica e de Computação
Resumo: Os sistemas de conversão de texto em fala (TTS) tornaram-se meios importantes de interação homem-máquina em diversas aplicações da vida cotidiana, como por exemplo em leitores de documentos digitais, sistemas de navegação automotiva e assistentes pessoais inteligentes. Apesar da sua...
Ver mais
Resumo: Os sistemas de conversão de texto em fala (TTS) tornaram-se meios importantes de interação homem-máquina em diversas aplicações da vida cotidiana, como por exemplo em leitores de documentos digitais, sistemas de navegação automotiva e assistentes pessoais inteligentes. Apesar da sua utilização difundida, muitos sistemas TTS ainda apresentam uma fala muito monótona, o que pode dificultar a comunicação eficaz e reduzir sua aceitação por pate do utilizador. A fim de mitigar esse problema, várias tentativas de introduzir aspectos da expressividade humana nos sistemas TTS comuns têm sido cada vez mais propostas na literatura. Uma abordagem muito adotada consiste em gravar diretamente dados expressivos em um determinado estilo de fala e treinar um modelo TTS nas transcrições. Embora essa técnica tenha demonstrado uma capacidade razoável de gerar modelos expressivos, ela não é escalável, uma vez que para cada novo falante deve ser inteiramente repetida. Neste contexto, a tarefa de transferência de estilo além-falante surge como uma possível solução para mitigar esse problema. Essa tarefa consiste em utilizar dados já gravados por outros falantes (apoio) em um determinado estilo de fala para construir um TTS expressivo para outro falante (alvo) com nenhum ou poucos dados expressivos. Várias técnicas baseadas no aumento de dados foram propostas para resolver a tarefa, mas quase nenhuma considera o cenário desafiador de quando os estilos de fala são altamente expressivos (por exemplo, emoções), e com falantes de apoio e alvo contendo timbres muito diferentes. Neste contexto, o uso de um modelo pré-treinado de conversão de voz cantada (SVC) é proposto, a fim de ser capaz de converter os dados altamente expressivos para a voz do locutor alvo. No processo de conversão, uma técnica de correspondência de frequência fundamental (F0) é aplicada para mitigar variações tonais entre alto-falantes com diferenças de timbre significativas. Além disso, um filtro classificador de estilos é utilizado para selecionar apenas os áudios convertidos com estilo adequado para o treinamento do TTS. Enquanto outros métodos necessitam de horas de dados neutros do falante alvo, a abordagem proposta é comparável ao estado da arte necessitando de apenas alguns minutos. Experimentos relatam melhorias trazidas pelo SVC e pelo filtro de estilo em termos de naturalidade e intensidade do estilo para os estilos cuja percepção depende mais de qualidades vocais do que dos parâmetros prosódicos. Além disso, um aumento da similaridade dos alto-falantes é obtido com o algoritmo proposto de correspondência F0
Ver menos
Abstract: Text-to-speech (TTS) systems have become important means of human-machine interaction in various daily life applications, as seen in digital document readers, car navigation systems, and intelligent personal assistants. Despite their widespread use, many TTS systems still exhibit very...
Ver mais
Abstract: Text-to-speech (TTS) systems have become important means of human-machine interaction in various daily life applications, as seen in digital document readers, car navigation systems, and intelligent personal assistants. Despite their widespread use, many TTS systems still exhibit very monotonous speech, which can hinder effective communication and reduce user acceptance. To tackle this issue, various attempts to introduce aspects of human expressiveness into standard TTS have been increasingly proposed on literature. A very adopted approach is to directly record expressive data in a given speaking style and train a TTS model on the transcriptions. Although this technique was shown to reasonably achieve expressive models, it is not scalable, since for every new speaker, it must be entirely repeated. In this context, the cross-speaker style transfer task arises as a possible solution to mitigate the issue. It consists in using already recorded data by other (source) speakers in a given speaking style to build an expressive TTS for other speaker (target) with fewer or non-existent expressive data. Several techniques based on data augmentation were proposed to solve the task, but almost none consider the challenging scenario when the speaking styles are highly expressive (e.g. emotions), and with very different source and target speakers' timbres. In this context, the use of a pre-trained singing voice conversion (SVC) model is proposed as a means to convert the highly expressive data into target speaker's voice. In the conversion process, a fundamental frequency (F0) matching technique is applied to mitigate tonal variances between speakers with significant timbral differences. Also, a style classifier filter is employed to select only the converted audios with adequate style for the TTS training. While other methods require hours of neutral data of target speaker, the proposed approach is comparable to start-of-the-art requiring only a few minutes. Experiments report improvements brought by both the SVC and style filter in terms of naturalness and style intensity for the styles whose perception relies more on vocal qualities than on prosodic parameters. Also, increased speaker similarity is obtained with the F0 matching algorithm
Ver menos
Requisitos do sistema: Software para leitura de arquivo em PDF
Aberto
Costa, Paula Dornhofer Paro, 1978-
Orientador
Masiero, Bruno Sanches, 1981-
Avaliador
Costa, José Rafael Valle Gomes da
Avaliador
Cross-speaker style transfer for TTS with singing voice conversion data augmentation, style filtering and F0 matching
Leonardo Boulitreau de Menezes Martins Marques
Cross-speaker style transfer for TTS with singing voice conversion data augmentation, style filtering and F0 matching
Leonardo Boulitreau de Menezes Martins Marques