Anotações de funções de proteínas utilizando aprendizado de máquina e alinhamento local
Gabriel Bianchin de Oliveira
TESE
Português
T/UNICAMP OL4a
[Protein function annotation using machine learning and local alignment]
Campinas, SP : [s.n.], 2025.
1 recurso online (114 p.) : il., digital, arquivo PDF.
Orientadores: Zanoni Dias, Hélio Pedrini
Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Computação
Resumo: Com o avanço das técnicas de sequenciamento nas últimas décadas, milhões de proteínas tiveram suas sequências de aminoácidos determinadas por meio de experimentos laboratoriais. No entanto, a identificação das características específicas de cada proteína, como suas funções, ainda demanda...
Ver mais
Resumo: Com o avanço das técnicas de sequenciamento nas últimas décadas, milhões de proteínas tiveram suas sequências de aminoácidos determinadas por meio de experimentos laboratoriais. No entanto, a identificação das características específicas de cada proteína, como suas funções, ainda demanda altos custos e tempo considerável, uma vez que requer procedimentos experimentais complexos. A compreensão das funções desempenhadas por proteínas é essencial para o avanço de diversas aplicações científicas, visto que elas exercem papéis fundamentais nos processos biológicos dos organismos vivos. Para reduzir a lacuna entre o número de proteínas com sequências conhecidas e aquelas com funções anotadas manualmente, diversas pesquisas têm sido conduzidas com o objetivo de aplicar métodos computacionais para esta análise, auxiliando na descoberta das funções exercidas pelas proteínas. Embora técnicas computacionais baseadas em sequências de aminoácidos já apresentem bons resultados, especialmente com o uso de abordagens de processamento de linguagem natural, como modelos baseados em Transformers, e alinhamento de sequências por ferramentas como DIAMOND e BLAST, a tarefa ainda permanece em aberto, evidenciando a complexidade e a necessidade contínua de novos avanços metodológicos. Nesta pesquisa, apresentamos dois métodos baseados em aprendizado de máquina utilizando técnicas de processamento de linguagem natural, além de dois métodos de ensemble que combinam as predições das abordagens de aprendizado de máquina com alinhamento local, assim como modelos intermediários. Durante a avaliação na base de dados derivada do CAFA5, que é o mais recente conjunto de dados do desafio CAFA e principal referência para a tarefa de classificação de funções de proteínas, os métodos propostos apresentaram desempenho superior às abordagens da literatura, estabelecendo-se como o novo estado da arte na predição de funções proteicas utilizando apenas a sequência de aminoácidos. Por fim, apresentamos versões otimizadas quanto ao uso de memória, que requerem menor capacidade computacional para alcançar resultados comparáveis às versões originais, além de um servidor Web contendo as versões otimizadas dos métodos propostos
Ver menos
Abstract: With the advancement of sequencing techniques in recent decades, millions of proteins have had their amino acid sequences determined through laboratory experiments. However, identifying specific characteristics of each protein, such as its functions, still demands high costs and...
Ver mais
Abstract: With the advancement of sequencing techniques in recent decades, millions of proteins have had their amino acid sequences determined through laboratory experiments. However, identifying specific characteristics of each protein, such as its functions, still demands high costs and considerable time, as it requires complex experimental procedures. Understanding the functions performed by proteins is essential for the development of various scientific applications, since proteins play fundamental roles in the biological processes of living organisms. To reduce the gap between the number of proteins with known sequences and those with manually annotated functions, several studies have focused on applying computational methods to assist in the functional annotation of proteins. Although computational approaches based on amino acid sequences have already achieved promising results, especially with the use of natural language processing techniques such as Transformers-based models, as well as sequence alignment tools such as DIAMOND and BLAST, the task remains an open problem. This highlights both its inherent complexity and the continuous need for methodological advancements. In this study, we present two machine learning methods based on natural language processing techniques, as well as two ensemble approaches that combine predictions from machine learning models with local sequence alignments. We also introduce intermediate models between these strategies. When evaluated on a dataset derived from CAFA5, the most recent dataset from the CAFA challenge and the main benchmark for the protein function prediction task, the proposed methods outperformed state-of-the-art approaches, establishing themselves as the new state-of-the-art for function prediction using only amino acid sequences. Finally, we introduce memory-efficient versions of our methods that require lower GPU memory usage while maintaining comparable performance to the original models. Additionally, we provide a Web server hosting these optimized versions to facilitate their use
Ver menos
Aberto
Dias, Zanoni, 1975-
Orientador
Pedrini, Hélio, 1963-
Coorientador
Scott, Ana Ligia Barbour
Avaliador
Silveira, Carlos Henrique da
Avaliador
Telles, Guilherme Pimentel, 1972-
Avaliador
Dados de pesquisa: https://doi.org/10.25824/redu/MVQ1DR
Anotações de funções de proteínas utilizando aprendizado de máquina e alinhamento local
Gabriel Bianchin de Oliveira
Anotações de funções de proteínas utilizando aprendizado de máquina e alinhamento local
Gabriel Bianchin de Oliveira