Metabolomics and machine learning for quality control of medicinal plants
Elisa Ribeiro Miranda Antunes Vedovatti
TESE
Inglês
T/UNICAMP An89m
[Metabolômica e machine learning para controle de qualidade de plantas medicinais]
Campinas, SP : [s.n.], 2025.
1 recurso online (98 p.) : il., digital, arquivo PDF.
Orientadores: Alexandra Christine Helena Frankland Sawaya, Aurea Rossy Soriano Vargas
Tese (doutorado) - Universidade Estadual de Campinas (UNICAMP), Instituto de Biologia
Resumo: Na última década, o interesse em plantas medicinais aumentou consideravelmente, tor- nando o controle de qualidade de fitoterápicos ainda mais importante. Embora a Farmaco- peia Brasileira já sugira métodos para o controle de qualidade de alguns fitoterápicos lista- dos, esses métodos não...
Ver mais
Resumo: Na última década, o interesse em plantas medicinais aumentou consideravelmente, tor- nando o controle de qualidade de fitoterápicos ainda mais importante. Embora a Farmaco- peia Brasileira já sugira métodos para o controle de qualidade de alguns fitoterápicos lista- dos, esses métodos não são isentos de limitações e geralmente se concentram em grupos de compostos ou compostos específicos. Dada a composição complexa das plantas medicinais e a o efeito sinérgico entre todos os seus compostos, uma metodologia mais holística seria ideal para esse controle de qualidade. Nesse contexto, a Metabolômica Untargeted oferece uma alternativa interessante, uma vez que mede, simultaneamente, o máximo de metabólitos possível, sem focar em marca- dores químicos específicos. No entanto, apesar de sua eficiência, a análise metabolômica geralmente gera grandes quantidades de dados altamente complexos que exigem ferramen- tas matemáticas, bioinformáticas e quimiométricas para processá-los e analisá-los. Neste cenário, Machine Learning (ML) se destaca para dar suporte à análise e inter- pretação de dados metabolômicos, bem como para processar grandes conjuntos de dados. Portanto, o objetivo deste estudo foi desenvolver um método de controle de qualidade as- sociando metabolômica e ML, focando nas espécies M. ilicifolia e M. laevigata, conhecidas popularmente como espinheira santa e guaco, respectivamente. Para isso, 400 amostras de Maytenus ilicifolia e Mikania. laevigata, cada, foram analisadas por Cromatografia Líquida de Ultra Alta Performance acoplada à espectrometria de massa (UHPLC-MS) utilizando dois métodos analíticos distintos. Após a análise UHPLC-MS, os dados foram processados seguindo o fluxo de trabalho de estudos metabolômicos. Com esses dados, dois modelos de ML foram desenvolvidos para cada espécie "ofi- cial"(M. ilicifolia e M. laevigata) para classificar se novas amostras seguem os padrões de controle de qualidade e pertencem às especies-alvo. Para construir os modelos, três algorit- mos foram testados: Support Vector Classification (SVC), K-Nearest Neighbours Classifier e Random Forest. Durante treinamento do modelo, a seleção de features foi realizada usando três métodos distintos: Mutual information,Recursive Feature Elimination e Boruta. Grid- SearchCV foi aplicado para otimização dos hiperparâmetros e os algoritmos foram avaliados usando o coeficiente de correlação de Matthews (MCC) e a métrica F1, tanto nas etapas de validação cruzada quanto de teste. Os modelos finais obtidos apresentam valores de MCC de 94% e 97% para os modelos M. ilicifolia e M.laevigata respectivamente, comprovando o sucesso do método em identificar e diferenciar as espécies ‘oficiais’ de suas contrapartes. Embora o presente trabalho apre- sente limitações, a alternativa apresentada, que associa Metabolômica Untargeted com ML, oferece uma maneira eficiente, confiável e econômica de abordar os desafios do controle de qualidade de fitoterápicos
Ver menos
Abstract: During the past decade, the interest in medicinal plants has increased significantly, en- hancing the importance of quality control. Although the Brazilian Pharmacopoeia already suggests methods for the quality control of regulated medicinal herbs, these methods of- ten focus on specific...
Ver mais
Abstract: During the past decade, the interest in medicinal plants has increased significantly, en- hancing the importance of quality control. Although the Brazilian Pharmacopoeia already suggests methods for the quality control of regulated medicinal herbs, these methods of- ten focus on specific compounds or groups of compounds. Given the complex composition of medicinal plants and the synergistic effect between their compounds, a more holistic methodology would be ideal for quality control. In this context, Untargeted Metabolomics offers an interesting alternative, as it simul- taneously measures as many metabolites as possible, without focusing on specific chemi- cal markers. However, despite its efficiency, metabolomic analysis usually generates large amounts of highly complex data that demand mathematical, bioinformatic, and chemo- metric tools to process and analyze them. Herein lies the potential of Machine Learning (ML) to support analysis and interpreta- tion of metabolomics data as well as to process large datasets. Therefore, the purpose of this study was to develop a quality control method that associates metabolomics and ma- chine learning, focusing on two important brazilian medicinal species, Maytenus ilicifolia and Mikania laevigata, popularly known as "espinheira-santa" and "guaco", respectively. To this end, 400 samples of Maytenus ilicifolia and Mikania laevigata each, were ana- lyzed by Ultra High-Performance Liquid Chromatography coupled with mass spectrometry (UHPLC-MS) using two different analytical methods along with their counterparts. After UHPLC-MS analysis, the data were processed following the metabolomics workflow. With such data, two machine learning models were developed for each ‘official’ species (Maytenus ilicifolia and Mikania laevigata) to classify if new samples follow quality control standards. To build the models, three algorithms were tested: Support Vector Classifica- tion (SVC), K-Nearest-Neighbors Classifier (KNN), and Random Forest (RF). In addition to model training, feature selection was performed using three distinct methods: Mutual in- formation, Recursive Feature Elimination, and Boruta. The GridSearchCV was applied to find the optimal hiperparameter space and the algorithms were evaluated using Matthews correlation coefficient (MCC) and the F1 score, both at the cross-validation and testing steps. The final models obtained present high MCC scores of 94% and 97% for the M. ilici- folia and M. laevigata models respectively, proving the success of the method in identify- ing and differentiating the ‘official’ species from their counterparts. Although the present work presents limitations, the alternative presented herein, which associates Untargeted Metabolomics with Machine Learning, offers an efficient, trustworthy, and economical way to approach the challenges of quality control of herbal medicine
Ver menos
Aberto
Vargas, Aurea Rossy Soriano
Coorientador
Porcari, Andréia de Melo, 1983-
Avaliador
Budzinski, Ilara Gabriela Frasson
Avaliador
Wadt, Nilsa Sumie Yamashita
Avaliador
Avila, Sandra Eliza Fontes de, 1982-
Avaliador
Metabolomics and machine learning for quality control of medicinal plants
Elisa Ribeiro Miranda Antunes Vedovatti
Metabolomics and machine learning for quality control of medicinal plants
Elisa Ribeiro Miranda Antunes Vedovatti