Programul AI nu a fost la fel de drăguț ca un copil adevărat. Dar, ca un bebeluș, și-a învățat primele cuvinte văzând obiecte și auzind cuvinte.

După ce a fost hrănit cu zeci de ore de videoclipuri ca un copil în creștere care își explorează lumea, un model de inteligență artificială ar putea, de cele mai multe ori, să asocieze cuvinte – minge, pisică și mașină, printre altele – cu imaginile lor, raportează cercetătorii. Această performanță AI, spune echipa, oferă o nouă fereastră în modurile misterioase prin care oamenii învață cuvintele.

Unele idei despre învățarea limbilor străine susțin că oamenii se nasc cu cunoștințe specializate care ne permit să absorbim cuvintele, spune Evan Kidd, psiholingvist la Universitatea Națională Australiană din Canberra, care nu a fost implicat în studiu. Noua lucrare, spune el, este „o demonstrație elegantă a modului în care sugarii nu au nevoie neapărat de multe mecanisme cognitive specializate încorporate pentru a începe procesul de învățare a cuvintelor”.

Noul model menține lucrurile simple și mici – o abatere de la multe dintre modelele mari de limbă, sau LLM, care stau la baza chatbot-urilor de astăzi. Acele modele au învățat să vorbească din resurse enorme de date. „Aceste sisteme de inteligență artificială pe care le avem acum funcționează remarcabil de bine, dar necesită cantități astronomice de date, uneori trilioane de cuvinte pentru a le antrena”, spune Wai Keen Vong, expert în domeniul cognitiv computațional, de la Universitatea din New York.

Dar nu așa învață oamenii cuvintele. „Inputul unui copil nu este întregul internet, ca unele dintre aceste LLM. Sunt părinții lor și ceea ce li se oferă”, spune Vong. Vong și colegii săi au construit în mod intenționat un model mai realist de învățare a limbilor străine, unul care se bazează doar pe o fărâmă de date. Întrebarea este: „Poate modelul să învețe limbajul din acest tip de input?”

Pentru a reduce intrările de la întregul internet, Vong și colegii săi au antrenat un program de inteligență artificială cu experiențele reale ale unui copil real, un bebeluș australian pe nume Sam. O cameră video montată pe cap a înregistrat ceea ce a văzut Sam, împreună cu cuvintele pe care le-a auzit, în timp ce creștea și învăța limba engleză de la vârsta de 6 luni până la puțin peste 2 ani.

Videoclipurile realizate de la un bebeluș pe nume Sam au servit drept intrare vizuală și sonoră pentru un program AI.

Programul AI al cercetătorilor – un tip numit rețea neuronală – a folosit aproximativ 60 de ore din experiențele înregistrate de Sam, conectând obiecte din videoclipurile lui Sam cu cuvintele pe care le-a auzit fiind rostite de către oamenii din jurul lui. Din aceste date, care reprezentau doar aproximativ 1% din orele de veghe ale lui Sam, modelul ar „învăța” cât de strâns erau aliniate imaginile și cuvintele rostite.

Pe măsură ce acest proces a avut loc în mod iterativ, modelul a reușit să preia câteva cuvinte-cheie. Vong și echipa sa și-au testat modelul similar cu un test de laborator folosit pentru a afla ce cuvinte știu bebelușii. Cercetătorii au dat modelului un cuvânt – pătuț, de exemplu. Apoi modelului i s-a cerut să găsească imaginea care conținea un pătuț dintr-un grup de patru imagini. Modelul a oferit răspunsul corect în aproximativ 62 la sută din încercări. Ghicitul aleatoriu ar fi dat răspunsuri corecte în 25 la sută din timp.

Pentru a vedea cât de bine a învățat un program AI cuvintele din intrările video și audio, cercetătorii au folosit un test ca acesta. Din fiecare set de patru imagini, modelul trebuia să identifice singura imagine care conținea un anumit obiect. În mai multe teste ale unui set de 22 de cuvinte, modelul a ales obiectul potrivit în mai mult de 60 la sută din timp.

„Ceea ce au arătat ei este că, dacă poți face aceste asocieri între limbajul pe care îl auzi și contextul, atunci poți începe când vine vorba de învățarea cuvintelor”, spune Kidd. Desigur, rezultatele nu pot spune dacă copiii învață cuvintele într-un mod similar, spune el. „Trebuie să te gândești la rezultate ca dovezi ale existenței, că aceasta este o posibilitate a modului în care copiii ar putea învăța limba.”

Modelul a făcut câteva greșeli. Cuvântul mână s-a dovedit a fi complicat. Majoritatea imaginilor de antrenament care implicau mâna s-au petrecut pe plajă, din această cauză modelul facând anumite confuzii între mână și nisip.

Copiii se încurcă și ei cu cuvinte noi. O greșeală comună este generalizarea excesivă, spune Kidd, numindu-i pe toți bărbații adulți „tati”, de exemplu. „Ar fi interesant de știut dacă modelul a făcut genul de erori pe care le fac copiii, pentru că atunci știi că este pe drumul cel bun”, spune el.

Verbele pot pune, de asemenea, probleme, în special pentru un sistem AI care nu are un corp. Imaginile setului de date pentru alergare, de exemplu, provin de la alergarea lui Sam, spune Vong. „Din perspectiva camerei, doar tremură în sus și în jos foarte mult.”

Cercetătorii furnizează acum și mai multe date audio și video modelului lor. „Ar trebui să fie mai multe eforturi pentru a înțelege ce îi face pe oameni atât de eficienți atunci când vine vorba de învățarea limbii”, spune Vong.