Traducătorul universal

The story of Daniel Marcu, the guy who made it easy to understand this sentence without knowing any english.

Daniel Marcu

 

SUMAR:

1.  Cine este Daniel Marcu?

1.1     Revelația lui Marcu: vrea să fie cercetător în domeniul traducerilor făcute de calculator
1.2 IBM Research, echipa care s-a destrămat lucrând la viziunea că statistica e o abordare mai bună decât lingvistica în domeniul traducerilor automate.

2. ”Ce vreau să fac când cresc mare?”

2.1 Etapa Cercetaşului: UBB, USC, California über alles
2.2 Etapa Antreprenorului: când “let’s try it out” înseamnă 42,5 milioane de dolari
2.3 Etapa Dezvoltatorului: în căutarea unui zero lipsă din piaţă

3. Istoricul traducerilor automate și a cercetărilor lui Daniel Marcu

 

 

Când l-am întrebat pe Daniel Marcu dacă se consideră cercetător, dezvoltator de produs sau om de afaceri ne-a răspuns cu seninătate, într-un interviu de mai bine de o oră pe Skype, că ”încă nu m-am hotărât ce vreau să fac când cresc mare”. Americanul clujean la origini a avut un ”aha moment” într-o dimineaţă în care îşi conducea mașina spre serviciu în Los Angeles și avea de luat o hotărâre foarte dificilă, una care poate să-ți treacă viaţa prin fața ochilor. Avusese nevoie de 12-13 ani să atingă succesul ca şi cercetător, și doar de 8 ca şi om de afaceri care a crescut de la zero o companie cu o cifră de afaceri de 12-15 milioane de dolari.

 

”Învățasem că, să fii om de știință și să faci o companie, requires completely different skills”, povestește Marcu amestecând de-a valma engleza cu româna. ”Dar pentru mine momentul <aha> a fost să-mi dau seama că pe măsură ce trece timpul nu mai ai nevoie de 12 ani la fiecare schemă a vieții, că mai folosești din experiența acumulată. Mi-am dat seama că poți face ceva în 8-9 ani de zile și mi-am zis,< ok, mai am timp să fac încă vreo 3 chestii>”.

 

A avut o contribuție semnificativă în domeniul algoritmilor de traducere automată, recunoscută la nivel mondial de mulțimea de publicații și referințe ale altor cercetători care fac trimitere către studiile sale,  a format o generaţie de cercetători ”pe care alții se bat să-i angajeze pentru că au lucrat cu tine”, a atras pentru universitatea în care lucrează – University of Southern California (USC) – contracte notabile de cercetare şi a co-fondat o companie pe care a vândut-o cu 42 de milioane de dolari”. Am hotărât să scriem despre Daniel Marcu pentru că impactul activității lui la nivel mondial e semnificativ. Faptul că acum putem traduce într-o clipă orice frază din orice limbă în oricare altă limbă folosind produse ca Google Translate sau Bing Translator i se datorează într-o măsură substanțială. E în același timp un exemplu de persoană care a știut să facă pasul din zona academică în cea antreprenorială. Și i-a ieșit.

 

Acum trece printr-o nouă etapă. A treia.

 

Impactul cercetărilor clujeanului în traducerile automate e indiscutabil, astfel că am suprapus povestea vieții lui Daniel Marcu peste cea a dezvoltării domeniului. Sunt multe lucruri de învățat, poate și pentru că cercetătorul român are un talent de a explica, deprins în anii de profesorat la USC.

 

Prin anii ’60, guvernul american aloca milioane de dolari în cercetarea şi dezvoltarea unui sistem de traducere automată. După mai mult de 10 ani de investiţii s-a ajuns la concluzia că lucrurile bat pasul pe loc, iar programul a fost oprit. ”Asta a pus apă rece pe tot ce se întâmpla și vreo 10-15 ani n-a mai mișcat nimic pentru că lumea credea că e o chestie fără speranță”, explică Marcu.

Abia la începutul anilor ‘70 apărea pe piață Systran, o companie mică ce vinde și astăzi produse de traducere automată după unul din cele două tipuri consacrate de abordări. Abordarea rule-based pornește de la o echipă de lingviști care încep să scrie reguli de traducere dintr-o limbă în alta. “Red”-ul din engleză e “roşul” din română. Apoi regulile merg la nivel de grup de cuvinte și de fraze, şi lucrurile încep să se complice prea tare pentru a putea fi explicate pe scurt, hic et nunc, fără o traducere laborioasă din limbajul de specialitate.

 

MARCU 1.0: ETAPA CERCETAȘULUI

 

La începutul anilor ’90, Daniel Marcu era student al UTCN (Universitatea Tehnică din Cluj-Napoca) şi începuse să fie captivat de domeniul traducerilor automate după ce îi căzuse în mână o carte veche, scrisă în perioada în care apărea Systran. ”Mi-am dat seama că asta vreau să fac în viață, cercetare, să fiu cercetaș”.

A urmat un doctorat la Toronto, iar în 1998 ajungea în California, la USC, unde l-a cunoscut pe Kevin Knight, un alt cercetător în traducerile automate.  A învăţat atunci o lecţie preţioasă: trebuie să ajungi acolo unde domeniul tău cumulează cel mai mare număr de experți, acolo unde se scriu regulile.

 

Universitatea californiană a fost şi a rămas centrul global al cercetării în traducerile automate. Tot în America dar de această dată pe coasta de Est, la începutul anilor ‘90, cei de la IBM veneau cu o abordare complet nouă, a construirii algoritmilor de învăţare.

În locul traducerilor bazate pe reguli lingvistice, aceştia erau de părere că, folosind statistica, pot fi creați algoritmi care să învețe singuri cum să traducă un text, odată ce au fost furnizate suficiente exemple de traduceri făcute de om.

Concret, au luat toate documentele traduse din engleză în franceză ce țin de procedurile parlamentare ale Canadei și au lăsat programele lor software să învețe traducerile dintr-o limbă în alta. Programul lor asocia fiecărui cuvânt și fiecărei secvențe de cuvinte un scor, o probabilitate că traducerea cea mai bună ar putea fi o secvență sau alta. O problemă de traducere s-a transformat astfel într-una de căutare a celei mai bune variante între toate versiunile pe care algoritmul le are într-o bază de date. Nu era însă şi o soluție perfectă. O propoziție de 6 cuvinte putea să aibă 10 la puterea 300 variante de traducere în altă limbă (ca pură comparație, numărul atomilor din Univers este de 10 la puterea 80). În medie, o propoziție era tradusă într-o oră.

Comunitatea științifică le respingea însă teoriile. ”Toți cei care făceau reviewing la vremea respectivă ziceau, hai băi, unde-i lingvistica aici, e numai statistică și matematică, nu funcționează”, spune Daniel Marcu. Grupul s-a destrămat în la mijlocul anilor ’90 și tot domeniul de statistical machine translation, acum conscacrat ca variantă de traducere pe lângă cel rule-based, s-a prăbușit odată cu dizgraţia singurilor oameni care îl înțelegeau.

Numai că grupul celor de la IBM Research era mai degrabă victima unei sincronizări de epocă. ”Indivizii ăștia de la IBM erau foarte deștepți, dar un pic înaintea timpului lor. Și orice invenție nu e suficient să fie bună, trebuie să se întâmple și când trebuie să se întâmple”, explică Marcu o a doua lecție.

 

Dar a existat şi un happy-end. Cercetătorii plecați de la IBM Research au fondat imediat după aceea un hedge fund (fond mutual) pentru a aplica regulile statistice în trading-ul de acțiuni. Numit Renaissance Technologies, a ajuns să administreze investiții de zeci de miliarde de dolari, iar algoritmul lor e atât de bun încât chiar și în perioadă de criză au câștigat 90% return on investment. Omul din spate, matematicianul James Simmons, este astăzi al 31-lea cel mai bogat american conform Forbes, cu o avere de 11,7 miliarde de dolari.

 

Înapoi în anii ‘90, mai exact în 1998, Daniel Marcu și Kevin Knight au început să lucreze după teoriile IBM – ”Am început să ne băgăm nasul ca să înțelegem ce au făcut ei. Ne-a luat ceva timp. Prima mea contribuție asta a fost. Să fac algoritmii să meargă de la o propoziție pe oră la, ce știu eu, 1000 de cuvinte pe minut”, povesteşte Marcu.

 

Ar mai folosi cineva Google Translate sau servicii similare dacă traducerea unei fraze ar dura o oră? ”Ideea e cum te miști în spațiul ăla de căutare cât mai repede, încercând să construiești traduceri care poate că nu-s perfecte din punct de vedere al probabilității, dar sunt OK pentru ochiul uman. Dacă este una de probabilitate mai bună, o fi, dar cine are timp să caute…Putem trăi și mai…cu aproximări. În loc să găsești soluții exacte, încerci să găsești soluții aproximative, dar de valoare cât mai apropiată de cele exacte”, își explică Marcu algoritmul de gândire care a făcut ca viteza traducerilor să crească.

Chiar şi aşa, cei doi au contribuit la creșterea calității traducerilor observând că, dacă priveşti un cuvânt individual, așa cum făcea echipa de la IBM, sensul său poate fi ambiguu, în schimb, odată văzută fraza în ansamblu, sensurile sale contextuale devin mai clare. ”De la cuvinte am mers la fraze și apoi la sintaxă. Am adus chestii pe care le vorbeau lingviștii în anii ‘50-‘60, încorporându-le în sistemele de traduceri. Astea au fost contribuțiile de bază: viteză și calitate. Simplu”.

 

Luna aceasta Daniel Marcu şi Kevin Knight, împreună cu fostul lor student şi acum angajat Wiliam Wong, au fost nominalizați la European Inventor Awards de către Oficiul European de Patente (EPO) exact pentru această contribuție. ”Astăzi, cele mai multe nume mari în traducere de internet, inclusiv Google și Microsoft, au integrat acest model în servicii de uz general traducere, precum Google Translate și Bing”, spunea Benoît Battistelli, președintele EPO, într-un comunicat de presă. Ai remarcat greșelile din acest citat? Nu sunt greşelile noastre de ortografie! Am tradus citatul folosind Bing Translator, care oferă traduceri aproximative, dar la viteza internetului.

 

 

MARCU 2.0: ETAPA ANTREPRENORULUI

 

În ciuda faptului că ”înțelegeam bine știința, dar nu înțelegeam deloc partea de business”, cei doi au înființat în 2002 Laguage Weaver. Opt ani mai târziu, compania construită în jurul algoritmului lor de traducere ajunsese la 100 de angajați şi vânzări anuale de 12-15 milioane de dolari, cu un punct culminant al capitolului doi al poveştii în vânzarea către SDL, o companie listată la bursa din Londra, cu 42,5 milioane de dolari.

”Când am pornit compania a fost let’s try it out că toată lumea își pornea companii în perioada aia de dot com, prin anii 2000. Unul își făcea magazin de vândut pet-food și altul magazin de mai știu eu ce, așa că, la un moment dat mi-am zis, frecția mea, dacă unii își fac magazin de pet food care părea o tehnologie destul de simplistă, poate că este ceva de făcut și cu ce făceam noi”, povesteşte Marcu. ”Decizia bună a fost să nu pretindem că dacă putem să fim super succesfull în lumea de science, putem automat să fim succesfull în lumea de business”.

 

Dacă cei de la IBM Research au fost pionieri în traducerile automate cu ajutorul statisticii, Language Weaver a fost prima companie care a adus metoda în piaţă. Şi a fost la fel de greu. Potențialii investitori vedeau în ei niște oameni de știință fără experiență în business, porniți pe o nişă inexistentă a unui domeniu anatemizat deja de companii care făceau traduceri prin metode rule-based şi se dovediseră niște găuri negre pentru alţi investitori. Pentru Google sau Microsoft, traducerile automate încă erau pe atunci o limbă străină.

La trei ani de la tranzacţie, Marcu preferă să păstreze confidenţial procentul pe care l-a deţinut din companie. Spune doar că au fost ”generoși” cu investitorii, oferind ”o grămadă din companie, din equity, chiar din prima zi”, și că primii investitori și-au multiplicat de 10 ori investiția în Language Weaver.

O experienţă care i-a întărit convigerea că, pentru a te dezvolta ca şi startup, trebuie să împarţi beneficiile potenţiale, oferindu-le finanţatorilor un pachet suficient de motivant de acțiuni. ”Nu ne-au strâns chiloții, nu am vrut să fim noi șefii cei mai mari, a fost OK să ne angajăm un CEO și să colaborăm să facem lucrurile să meargă”.

 

Primul om cooptat alături de fondatorii Language Weaver a fost Wiliam Wong care a renunțat la job-ul pe care îl avea la Intel și a venit să lucreze la startup împreună cu Marcu și Knight pentru jumătate din banii pe care îi câştigase până atunci. Următoarele persoane aduse în companie au ocupat posturile de CEO, business development – vice president și wonder woman, ”cineva care era bună la toate, HR, contabilitate, PR”. Prima echipă avea doar 7 oameni și multă vreme a rămas la dimensiunea asta, pentru că Marcu și Knight au fost de părere că e mai bine să crească încet. ”Când începi într-un market din ăsta care nu există sau e minuscul, dacă apeși prea repede pe accelerație consumi mult mai mulți bani decât generezi și dispari”.

Au intuit corect că e un joc al răbdării, că domeniul traducerilor automate cu algoritmi statistici se va dezvolta în cele din urmă, iar ei aveau nevoie să-și perfecționeze produsul consumând doar cât reușeau să câștige. Un colateral al unei astfel de abordări ar fi acela că nu eşti forţat să înstrăinezi alte pachete de acțiuni după ce ai folosit banii primului investitor. În cei opt ani până la vânzarea către SDL, spune Marcu, Language Weaver a trecut prin doar două runde de finanțare.

 

Iniţial, Language Weaver vindea software de traducere pentru clienți din segmentul guvernamental american, iar începând cu 2006 soluții care îmbunătățeau traducerile făcute de oameni. Ulterior, Language Weaver a început să facă traduceri directe, fără asistență umană, pentru site-uri ale Intel sau TripAdvisor. Era perioada când și Google și Microsoft începuseră să aibă acest tip de produse, iar la întâlnirile de vânzări Marcu putea folosi replica ”we’re exactly like Google but we can make it work for you”.

Piaţa intrase într-o nouă eră.

“Am ajuns la concluzia în 2010 că trebuie să apăsăm pe accelerație. Când începe să se încălzească, trebuie să apeși pe accelerație. Ca să apeși pe accelerație trebuie să aduci bani în companie. Și poți să-i aduci în două feluri, fie îi aduci de la investitori de meserie sau îi aduci din balance sheet-ul altei companii. Dar you need an investment because otherwise it’s not good. Într-o lume competitivă, fie concurezi, fie you die. It’s pretty much the way it is.

Aveam o listă de investitori care voiau să investească și de term sheet-uri ale unor companii care voiau să ne cumpere. Am analizat tot și am ales să mergem cu SDL. Eu cred că a fost o decizie foarte bună, și acum, la 3 ani.”

 

MARCU 3.0: ETAPA DEZVOLTATORULUI UNEI PIEȚE

 

Odată preluată, Language Weaver a fost integrată în SDL, iar Daniel Marcu a fost numit Chief Science Officer al unei companii cu o cifră de afaceri de 269 de milioane de lire sterline în 2012 (407 milioane de dolari). Traducerile automate aduc o mică parte din aceste venituri. Este şi unul dintre motivele pentru care Marcu mărturiseşte acum că obiectivul celei de-a treia etape a vieţii lui este să ducă la maturitate o piață estimată în momentul de faţă la 100 milioane de dolari. ”Care-i nimica”, raportat la o piaţă a traducerilor old school evaluată de clujean la 15 miliarde de dolari. În paranteză spus, doar Uniunea Europeană cheltuia în 2005 1% din bugetul său pe traduceri, adică 1,1 miliarde de euro.

”M-am hotărât să-mi petrec următoarea carieră făcând orice trebuie ca să creăm un market care să fie 500 de milioane – un miliard de dolari pentru traducerile automate”, spune Daniel Marcu. Iar asta ar putea să fie cea mai dificilă dintre misiunile sale de până acum. Mai ales că piaţa este extrem de fragmentată. SDL e una dintre cele mai mari companii din domeniu și totuși are o cotă de doar 1%. În condiţiile în care primele 20 de companii din lume pe acest segment controlează împreună mai puțin de 8% din piață. ”Nu se mai întâmplă așa ceva în alt domeniu, să ai o piață de 15 miliarde de dolari și nici un big player”.

 

Are două posibile abordări. Prima, să meargă în paralel cu un hibrid, traduceri făcute de oameni, dar cu ajutorul algoritmilor de traducere automată.

A doua, să crească piaţa direct, ”împachetând” soluția pentru tot felul de situații în care este nevoie de traduceri: site-uri în mai multe limbi, customer support.  ”Printre astea două variante îmi petrec timpul acum. Cum bate vântul. Câteodată fac probleme de business, câteodată fac probleme de marketing, câteodată fac știință…nu știu ce fac”.

 

Mai clar este modul în care lumea se schimbă datorită faptului că dispare treptat constrângerea învățării unei limbi străine. Daniel Marcu a fost condiționat să învețe limba engleză pentru că voia să studieze în afara țării. Alți oameni învață o limbă străină pentru că trebuie să interacționeze la serviciu cu colegi de altă naționalitate sau să ceară un suc atunci când câlătoresc. Pe măsură ce algoritmii de traducere devin mai buni, orice text, scris sau audio va putea fi înțeles de oricine fără să cunoască limba originală. ”În viitor cei care vor învăța o limbă străină o vor face doar din pasiune”. Nu e greu de imaginat un astfel de viitor. Avem deja ochelari Google care suprapun o meta realitate peste ceea ce vedem în jur. De ce nu și o cască în ureche care să ne traducă instant ceea ce ne spune persoana din fața noastră?

 

 

 

………………………………….

Dacă ești sigur că ai următoarea idee mare care va schimba lumea, te-ar putea interesa Innovation Labs, un proiect al TechSoup România și Tech-Lounge, realizat în cadrul inițiativei YouthSpark a Microsoft România. Începând din februarie 2013, Innovation Labs sprijină studenți din facultăți tehnice să creeze proprietate intelectuală românească originală.

innovation labs

………………………………………

 

 

 

Babel A.D. – o istorie tradusă în fapte

 

1954 – Câțiva cercetători punpe roate un mic număr de magie științifică ce avea să fie numit experimentul Georgetown-IBM pentru a determina guvernul american să aloce fonduri în domeniul traducerilor automate. 60 de propoziții au fost traduse de un calculator IBM din rusă în engleză. Experimentul a funcționat și guvernul a început să aloce granturi cercetătorilor care spuneau că în 3-4 ani orice text va putea fi tradus de un calculator.

 

1966 – Comitetul ALPAC, format din șapte oameni de știință desemnaţi să evalueze progresul în domeniul traducerilor asistate de calculator, publică un raport a cărui concluzie este că acestea nu vor duce niciodată la un rezultat concret. În consecinţă, guvernul american taie finanțarea tuturor programelor.

 

1968 – Peter Toma, un cercetător de origine maghiară implicat în experimentul Georgetown-IBM, înființează Systran, companie care oferă produse de traducere automată bazată pe seturi de reguli lingvistice de traducere (rule based machine translation). Abordarea e astăzi depășită, e folosită doar împreună cu algoritmi statistici.

 

1990 – Cercetătorii IBM Research vin cu ideea de a aplica metode statistice în traducerile automate, în care regulile gramaticale nu sunt introduse ci învățate de algoritmi, căutând de fiecare dată modele în traduceri făcute anterior de oameni. Metoda este controversată și respinsă de comunitatea științifică. Grupul se destramă, iar domeniul traducerilor automate prin metode statistice moare odată cu el.

 

1998 – Kevin Knight si Daniel Marcu încep să studieze algoritmii de traducere prin metode statistice și să colaboreze ca și colegi la Information Sciences Institute, University of Southern California (USC).

 

1999 – Cei doi primesc un grant de la DARPA, agenția tehnologică pentru armata americană, pentru cercetare în traduceri automate cu metode statistice și sumarizare (reducerea unui text la un număr mai mic de cuvinte, păstrând înțelesul).

 

2000 – Marcu şi Knight reunesc un grup de cercetători în cadrul Information Science Institute al USC – domeniul prinde în sfârșit contur și recunoaștere științifică. Era cel mai bine finanțat grup din domeniul traducerilor automate la acea vreme, iar bulgărele de zăpadă avea să aibă ca efect creșterea numărului de articole științifice publicate anual în lume de la 0 la 500.

 

2002 – Cei doi pun pe picioare Language Weaver, prima companie cu un produs de traduceri automate prin metode statistice.

 

2002-2005 – Încep să angajeze oameni după ce primesc o investiție și continuă să îmbunătățească software-ul de traducere. De la o propoziție pe oră, cât dura traducerea pe vremea celor de la IBM Research, se ajunge la 1000 de cuvinte pe minut. Nu doar viteza, dar și calitatea traducerilor crește prin algoritmii făcuți de Marcu. Piața era însă aproape inexistentă.

 

2008-2009 – Google începe să folosească metoda de traducere statistică într-un produs consumer și lumea începe să vadă o nouă oportunitate în acest domeniu. Language Weaver începe să aibă contracte cu nume mari ca Intel sau TripAdvisor.

 

2010 – Language Weaver are acum 100 de angajați și cifre afaceri de 12-15 milioane de dolari şi este cumpărată de SDL, o companie britanică, pentru 42,5 milioane de dolari. Daniel Marcu devine Chief Science Officer al companiei.

 

2013 – Oficiul European al Patentelor îi nominalizează pe Daniel Marcu și Kevin Knight la European Inventor Award 2013, pentru contribuția lor la dezvoltarea traducerilor automate prin metode statistice ce a influențat adopția lor de giganți ca Microsoft și Google.

 

 

Articolul face parte din seria Inovatori Români realizată în parteneriat cu  Innovation Labs, un proiect al TechSoup România și Tech-Lounge, realizat în cadrul inițiativei YouthSpark a Microsoft România.

innovation labs

 

 

 

 

Alte articole
  • Bogdan

    As dori sa mentionez o mica gresala strecurata in articolul de mai sus. Daniel marcu a studiat la UTCN (Poli) si nu la UBB:
    ” La începutul anilor ’90, Daniel Marcu era student al UBB-ului clujean …”

  • Pingback: Inovatori români: Daniel Marcu | Das Cloud()