Când Google a dezvăluit AlphaFold3 – cea mai recentă ediție AI pentru predicția structurii proteinelor – luna aceasta, a venit cu un impediment. Spre deosebire de o versiune anterioară, nu există niciun cod software care să descrie programul.
Compania a revenit asupra deciziei la câteva zile după aceea, promițând să lanseze codul până la sfârșitul anului. Dar omisiunea a determinat cercetătorii din întreaga lume să dezvolte propriile lor versiuni open-source ale AlphaFold3.
Pe 13 mai, la câteva zile după ce a început reacția negativă, DeepMind a făcut un pas înapoi și a anunțat că va pune la dispoziție codul și greutățile modelului AlphaFold3 pentru uz academic în termen de șase luni.
Dar rămân întrebări dacă această versiune a AlphaFold3 va avea întreaga gamă de capabilități, în special abilitatea de a prezice structura proteinelor în legătură cu moleculele potențiale de medicamente, sau liganzi, spun oamenii de știință. Modelul OpenFold3 pe care echipa lui AlQuraishi îl dezvoltă nu va avea astfel de limitări, spune el, nici restricții privind utilizarea comercială.
Există și alte motive pentru care oamenii de știință urmăresc versiuni open-source ale AlphaFold3. Unul, spune AlQuraishi, va fi abilitatea de a reantrena modelul pentru a modela mai bine interacțiunile dintre proteine și potențiale medicamente. Echipa sa a reantrenat versiunea sa AlphaFold2 folosind aceleași seturi de date publice pe care le-a folosit DeepMind. Dar AlQuraishi se așteaptă ca multe companii farmaceutice să fie dornice să aibă o versiune a AlphaFold3 pe care să o poată reantrena cu propriile date, ceea ce ar putea îmbunătăți performanța modelului.
Phil Wang, un inginer software independent din San Francisco, a început un efort de crowdsourcing pentru a replica cel mai recent model al DeepMind. Wang, care are și o diplomă medicală, a dezvoltat versiuni open-source ale zecilor de modele AI, inclusiv instrumentul de generare a imaginilor DALL-E. Wang a primit sprijin financiar pentru munca sa din partea unor companii în trecut, dar nu a primit încă oferte pentru a lucra la un AlphaFold3 open source.
Wang spune că echipa sa de trei persoane se așteaptă să termine codul care descrie modelul AlphaFold3 într-o lună. Dar pasul cel mai lung va fi antrenarea modelelor, spune AlQuraishi: „Codul este de departe cea mai ușoară parte. Asta reprezintă 5% din efort”.
Probabil va fi și costisitor. Ar putea costa peste un milion de dolari în resurse de cloud computing pentru a antrena AlphaFold3 în același mod în care a făcut-o DeepMind, deși ar putea fi posibil să se facă economii pentru a reduce costurile fără a compromite performanța.
Unii oameni de știință încearcă deja să „descifreze” serverul AlphaFold3. „Au existat deja câteva hackinguri online”, spune Ovchinnikov, de exemplu pentru a obține modele mai precise ale proteinelor încorporate în membrana celulară. Un alt hack al serverului a dezvăluit o formă alternativă pe care o adoptă o proteină.
AlQuraishi speră că efortul de a dezvolta versiuni open-source ale AlphaFold3 va servi drept o „poveste de avertizare” pentru academicieni despre pericolele de a se baza pe companii de tehnologie precum DeepMind pentru a dezvolta și distribui instrumente.