Inovatori români: Daniel Marcu

Dacă vrei să-l traduci pe Shakespeare e bine să dai la Litere. Dar dacă vrei să poți traduce tot Internetul, ai face mai bine să studiezi exemplul clujeanului Daniel Marcu.

The Man of Letters - Pierrot's Alphabet (1794)

Cum ți-ar fi mai ușor să traduci un text din germană în hindi fără să cunoști vreuna dintre limbi? În prima variantă ai la îndemână un dicționar germano-hindi și o carte cu regulile lingvistice ale ambelor limbi. Ce-ţi mai rămâne de făcut după ce-ai tradus cuvintele cu dicţionarul e  să ”torni” primul text în forma” celui de-al doilea, adică să respecţi canoanele lingvistice care ar putea spune, bunăoară, că predicatul trebuie să stea la sfârșitul propoziției.

 

În cea de-a doua variantă, nu ai nici dicționar și nici nu cunoști regulile lingvistice ale vreuneia dintre limbi, dar ai două alte cărți, originalul scris în hindi și ediția tradusă în germană. Într-un proces care seamănă mult cu decriptarea unui cod, vei învăța cum a fost tradusă cartea pentru a putea descifra textul problemă. Cu cât cartea e mai mare, cu atât mai probabil traducerea textului va fi mai bună, pentru că vei găsi mai multe situații acoperite.

“Noi am reușit cu Language Weaver să ducem o idee de la o ecuație matematică la o companie profitabilă, de o sută de oameni, capabilă de a genera venituri de 10-20 de milioane de dolari anual.” – Daniel Marcu

 

Numai că în noua eră a tehnologiei, o astfel de problemă devine mai curînd bătaia de cap a roboţilor – ce bine că există! -, a algoritmilor statistici care învață să traducă mulțimea de texte digitale care altfel ar rămâne accesibile doar vorbitorilor unei anumite limbi.

 

Astăzi, today, oggy, šiandien, este clar că cea de-a doua variantă – are şi un nume consacrat, “statistical machine translation” – oferă rezultate mai bune decât cea dintâi, aşa-numita ”rule based translation”.  Nu era însă la fel de clar şi la începutul anilor ’90, când Daniel Marcu, pe atunci student la Facultatea de Automatică și Calculatoare a Universității Tehnice din Cluj-Napoca, și-a descoperit pasiunea vieții după ce a citit o carte de prin anii ’70 despre limbaje naturale și traduceri automate.

 

“Mi s-a părut fascinant să descopăr că exista un domeniu științific care rezona cu tot ce eram pasionat. De atunci nu am făcut altceva decât să încerc să învăț și să avansez cât mai mult acest domeniu”.

 

În România, Daniel Marcu este aproape necunoscut în afara cercurilor de iniţiaţi în traducerile cu ajutorul programelor software, iar în presa românească numele său apare într-un singur articol, publicat anul trecut de săptămânalul Mesagerul de Cluj. S-a născut în Cluj, şi-a făcut doctoratul în Canada, la University of Toronto, iar apoi s-a mutat la University of Southern California, Los Angeles, ca şi profesor in departamentul de calculatoare şi cercetător la Institutul de Ştiinţe ale Informaţiei.

Ulterior avea să fondeze împreună cu colegul Kevin Knight, o altă somitate în lumea academică,  Language Weaver, o companie construită în jurul software-ului de traducere pe care au vândut-o în 2010 către britanicii de la SDL pentru 42,5 milioane de dolari.

 

Cum a influențat Daniel Marcu modul cum se fac astăzi traduceri automate, aşa cum sunt cele cu care ne-am obișnuit atât de mult  pe internet încât nici nu le mai dăm importanță? Cum vor învăța mai bine mașinile să facă traduceri în viitor și care sunt cele mai dificile probleme de decriptat pentru a ajunge la traduceri la fel de bune ca şi cele făcute de un vorbitor nativ? Răspunsurile le vom afla pe larg chiar de la Marcu, într-o continuare a acestui material care va fi publicată de Das Cloud la începutul anului viitor.

 

 

 

În campania Inovatori români, realizată de DasCloud în cadrul proiectului Innovation Labs, descoperim români din prima linie a industriei de IT&C care, fie din România, fie din străinătate, creează produse și soluții IT inovatoare.

Innovation Labs este un proiect al TechSoup România și Tech-Lounge, realizat în cadrul inițiativei YouthSpark a Microsoft România. Începând din februarie 2013, Innovation Labs va sprijini studenți din facultăți tehnice să creeze proprietate intelectuală românească originală.

innovation labs

Alte articole