Les bloqueurs de pubs mettent en péril la gratuité de ce site.
Autorisez les pubs sur Techno-Science.net pour nous soutenir.
▶ Poursuivre quand même la lecture ◀
Este "ChatGPT da biologia" está 500 milhões de anos à frente da evolução natural
Publicado por Adrien, Fonte:bioRxiv Outras Línguas: FR, EN, DE, ES
Uma nova era se abre no campo das proteínas com a chegada da inteligência artificial (IA). Um modelo inovador, chamado ESM3, é capaz de gerar proteínas totalmente inéditas. À semelhança do ChatGPT, que prevê a palavra seguinte numa sequência, o ESM3 pode criar sequências proteicas desconhecidas na natureza. Uma proeza que suscita tanto maravilhamento quanto questões éticas.
A proteína esmGPF, gerada pelo modelo ESM3, é única no seu género. Segundo os cientistas, seriam necessários 500 milhões de anos de evolução para criar uma proteína deste tipo. Crédito: EvolutionaryScale
Os investigadores utilizaram o ESM3 para desenvolver uma proteína fluorescente que compartilha apenas 58% da sua sequência com aquelas presentes na natureza. Este avanço foi publicado a 2 de julho na base de dados bioRxiv. A empresa EvolutionaryScale, fundada por antigos investigadores da Meta, também detalhou esta descoberta num comunicado no passado dia 25 de junho.
O modelo ESM3, semelhante ao GPT-4 da OpenAI, foi treinado em 2,78 mil milhões de proteínas. Os investigadores extraíram informações sobre a sequência, estrutura e função de cada proteína, e depois pediram ao modelo para prever as informações em falta. Este método permite gerar novas proteínas, mas a sua eficácia deve ser validada por testes experimentais.
A EvolutionaryScale disponibilizou uma versão reduzida do modelo ESM3 sob licença não comercial, enquanto a versão completa estará acessível aos investigadores industriais. Esta tecnologia poderia revolucionar áreas variadas, desde a descoberta de medicamentos até à degradação de plásticos.
A equipa de investigação já tinha ganhado notoriedade em 2022 com o EMSFold, um precursor do modelo ESM3, que previa estruturas proteicas microbianas desconhecidas. Paralelamente, a equipa de DeepMind da Google tinha anunciado previsões para 200 milhões de proteínas, destacando os limites e desafios de tais abordagens, nomeadamente a verificação das previsões por métodos experimentais tradicionais.
A verdadeira inovação do modelo ESM3 reside na sua capacidade de gerar proteínas completamente novas. Utilizando milhares de milhões de dados sobre a estrutura, função e sequência das proteínas, o modelo produziu uma nova proteína fluorescente chamada "esmGPF". Embora menos brilhante do que as suas homólogas naturais, iterações adicionais permitiram melhorar a sua luminosidade, atingindo resultados inimagináveis pela evolução natural.