Dieses "ChatGPT der Biologie" ist 500 Millionen Jahre der natürlichen Evolution voraus

Veröffentlicht von Adrien,
Quelle: bioRxiv
Andere Sprachen: FR, EN, ES, PT
Eine neue Ära bricht im Bereich der Proteine mit dem Aufkommen der künstlichen Intelligenz (KI) an. Ein innovatives Modell namens ESM3 ist in der Lage, völlig neuartige Proteine zu erzeugen. Ähnlich wie ChatGPT, das das nächste Wort in einer Sequenz vorhersagt, kann ESM3 unbekannte Proteinsequenzen kreieren. Eine Meisterleistung, die ebenso viel Staunen wie ethische Fragen aufwirft.


Das Protein esmGPF, erzeugt durch das Modell ESM3, ist einzigartig. Laut Wissenschaftlern wären 500 Millionen Jahre Evolution nötig gewesen, um ein solches Protein zu schaffen.
Credit: EvolutionaryScale

Die Forscher nutzten ESM3, um ein fluoreszierendes Protein zu entwickeln, das nur 58 % seiner Sequenz mit den in der Natur vorkommenden Proteinen teilt. Dieser Fortschritt wurde am 2. Juli in der Datenbank bioRxiv veröffentlicht. Das Unternehmen EvolutionaryScale, gegründet von ehemaligen Meta-Forschern, hat diese Entdeckung auch in einer Mitteilung am 25. Juni detailliert beschrieben.

Das Modell ESM3, ähnlich wie GPT-4 von OpenAI, wurde mit 2,78 Milliarden Proteinen trainiert. Die Forscher extrahierten Informationen über die Sequenz, Struktur und Funktion jedes Proteins und forderten das Modell auf, die fehlenden Informationen vorherzusagen. Diese Methode ermöglicht es, neue Proteine zu generieren, deren Wirksamkeit jedoch durch experimentelle Tests validiert werden muss.

EvolutionaryScale hat eine reduzierte Version des Modells ESM3 unter einer nicht-kommerziellen Lizenz zur Verfügung gestellt, während die vollständige Version für industrielle Forscher zugänglich sein wird. Diese Technologie könnte verschiedene Bereiche revolutionieren, von der Wirkstoffentdeckung bis hin zum Abbau von Kunststoffen.

Das Forschungsteam machte bereits 2022 mit EMSFold auf sich aufmerksam, einem Vorläufer des Modells ESM3, das unbekannte mikrobiologische Proteinstrukturen vorhersagte. Gleichzeitig kündigte das Team von DeepMind von Google Vorhersagen für 200 Millionen Proteine an, was die Grenzen und Herausforderungen solcher Ansätze unterstreicht, insbesondere die Überprüfung der Vorhersagen durch traditionelle experimentelle Methoden.

Die wahre Innovation des Modells ESM3 besteht in seiner Fähigkeit, völlig neue Proteine zu erzeugen. Durch die Nutzung von Milliarden von Daten über Struktur, Funktion und Sequenz von Proteinen hat das Modell ein neues fluoreszierendes Protein namens "esmGPF" produziert. Obwohl es weniger hell ist als seine natürlichen Gegenstücke, haben zusätzliche Iterationen seine Helligkeit verbessert und Ergebnisse erzielt, die von der natürlichen Evolution unvorstellbar gewesen wären.