iNţelege româneşte

Vorbește cu aparatele! Tăcerea n-a fost nimănui de folos în epoca über-tehnologică. O spune Reimund Schmald, de la Nuance Communications. Managerul de Mobile Marketing în Europa de Est al companiei americane explică pentru Das Cloud cum a învățat iPhone-ul limba română și care e viitor dialogului nostru verbal cu device-urile ce ne înconjoară.

The Curious George - Francis Barraud

 

Textul pe care îl veți citi în continuare a fost dictat unui iPad care l-a transcris cuvânt cu cuvânt. Halt! Am glumit. Deși tehnologiile de voice recognition sunt tot mai sofisticate, am preferat să facem totul în sistem old school: din tastatură și fără vorbărie. Dar am fi putut să o facem şi cu ajutorul Dragon Dictation, prima aplicație de iPhone / iPad care înțelege limba română.

 

Am testat-o și noi la Das Cloud și nu merge chiar la fel de natural ca în clipul de prezentare de mai jos.

 

 

Dacă îi vorbești răstit și cu pauze între cuvinte, precum un logoped, Dragon Dictation redă destul de bine ceea ce îi transmiți. Dar dacă începi să-l repezești, Dragon-ul îşi pierde complet capul și-ți răstălmăcește destul de grav spusele. Noi i-am recitat Dragonului următoarea frază: “Ia să testăm și noi aplicația asta să vedem dacă funcționează așa cum se laudă oamenii de la Nuance”.

 

Dragon Dictation aproape o nimerește.

 

Dragon Dictation o dă complet în bară.

 

Aplicația gratuită din App Store e un dorit cal troian, prin intermediul căruia Nuance Communication speră să convingă atât dezvoltatorii de aplicații, cât și producătorii de telefoane mobile și televizoare să scoată bani din buzunar pentru a-și dota aparatele cu softuri de ciulit urechile la tot ceea ce le va cere în limba română posesorul lor, după cum spune Reimund Schmald, Managerul de Mobile Marketing în Europa de Est.

 

Nuance e o companie de software din Massachusetts, specializată, printre altele, în recunoaștere vocală. Tehnologia americanilor are trecere în rândul producătorilor de telefoane mobile, televizoare și automobile. În România avem, deocamdată, Dragon Dictation, dar am dorit să știm de la Reimund Schmald ce ecou vor avea în viitor vorbele noastre adresate Mașinilor.

Reimund Schmald

 

A fost greu să dezvoltați o astfel de aplicație pentru limba română?

 

Toți cei care vorbesc cu noi și care au intrat în contact cu tehnologia noastră ne spun că limba pe care o vorbesc ei este cea mai complexă.

 

E similar într-o oarecare măsură cu ceea ce facem cu copiii. Desigur, computerele nu sunt copii, dar ceea ce facem noi este să le hrănim cu voce originală în limba română și cu textul asociat acestei voci. Când ai un anumit volum de date, computerul știe și va putea corela textul cu vocea pe care a asimilat-o. Lucrăm pe bază de foneme. Nu lucrăm doar cu cuvinte; când ascultăm un cuvânt, îl transcriem în foneme și ne uităm să vedem ce cuvinte se potrivesc acestor foneme. Sistemul nostru mai include un model de limbaj, ceea ce înseamnă că sistemul nostru învață gramatica propozițiilor din română, respectiv ce cuvânt urmează după un alt cuvânt.

 

Serviciul e disponibil în 40 de limbi în total în momentul de față. Dragon Dictation a ajuns la performanța de a învăța orice limbă, inclusiv swahili, într-un termen de 4-6 luni. La fiecare 3-4 luni lansăm serviciul într-o nouă limbă.

 

”Dragon Dictation a ajuns la performanța de a învăța orice limbă, inclusiv swahili, într-un termen de 4-6 luni”

Cum s-au petrecut mai exact lucrurile în cazul versiunii în limba română?

 

Pentru limba română, procesul de creare al aplicației a durat aproximativ un an. Am luat date, iar în ziua de azi poți lua o mulțime de date în română. De la radiourile sau televiziunile care le pun la dispoziție pe internet. Uneori poți avea acces inclusiv la date de telefonie pe care le colectează, de exemplu, universități. Luăm aceste date și le dăm unor oameni care le transcriu. Alături de aceștia se află o mână de specialiști în limbaj, fie că e vorba de lingviști sau alți cercetători în vorbire. Nu e neapărat nevoie să fie nativi, trebuie să înțeleagă însă limba. Pe de altă parte, datele pe care le folosim trebuie să provină de la nativi. Un software corelează mai apoi textul cu vocea.

 

Avem diverse dialecte și în România. Ați avut și asta în vedere?

 

Nu, pentru română am folosit, pe cât posibil, limbajul cu cel mai puțin vizibil accent regional.

 

”Pentru limba română, procesul de creare al aplicației a durat aproximativ un an”

Care au fost cele mai dificile aspecte în dezvoltarea aplicației în română? Mă refer la dicritice, anumite grupuri de litere.

 

Colegii din Boston și Montreal mi-au spus că natura opțională a anumitor diacritice din cadrul SMS-urilor a reprezentat partea cea mai complicată. La fel și grupuri precum ce, ci, ge, gi.

 

Câți utilizatori au descărcat până acum aplicația?

 

Nu facem publice aceste numere. Am fost însă, în prima zi de la lansare, cea mai descărcată aplicație gratuită din App Store în România. Utilizarea masivă de până acum a aplicației ne ajută, astfel, să optimizăm serviciul. Există un mod individual de învățare, dar și unul general. Aplicația învață și de la fiecare utilizator în parte, dar și de la cunoștințele acumulate în cadrul sistemului.

 

În general, în alte țări unde am lansat până acum serviciul, în patru săptămâni de la lansare, între 25 și 50% dintre posesorii de iPhone-uri din țara respectivă descărcaseră deja aplicația. Deci, în România, am făcut o estimare pentru 300.000 de utilizatori.

 

Ați fost prezent recent la o conferință, Next Berlin, unde ați avut o prezentare, Voice user interface. Where does it come and where is it going? Despre ce ați vorbit?

 

Când te uiți la istoria recunoașterii vocale, vezi că sunt companii precum IBM sau Philips, și la fel universități, care au început studiul în acest domeniu încă de prin anii ’70. În filmele de acum câteva decenii, precum Star Trek, era normal să vorbești mașinilor. Primele produse au apărut însă, în 1997, când Philips a introdus primul telefon mobil cu apelare vocală. Spuneai un nume telefonului, iar el apela numărul de telefon alocat acestui nume din agendă.

”Astăzi, tehnologia este atât de avansată încât poți folosi limbaj natural, la fel cum faci cu Siri”

 

În 2005 puteai deja cumpăra un Ford Fiesta, o mașină de duzină, dotată însă cu speech recognition. Serviciul era doar pentru comandă și control. Trebuia să spui doar “Sună-l pe Cosmin Popan”. Dacă spuneai însă “Aș vrea să-l sun pe Cosmin Popan” sau “Apelează-l pe Cosmin Popan”, nu ar funcționa. Trebuiau să folosești comenzi specifice, pe care trebuia să le știi.

 

Astăzi, tehnologia este atât de avansată încât poți folosi limbaj natural, la fel cum faci cu Siri. Acum dacă îi spui lui Siri: “Siri, caută pe internet care este populația României”, Siri merge pe Wolfram Alpha și găsește răspunsul exact. La fel, îi poți adresa întrebări implicite precum “Am azi nevoie de o umbrelă în București?” Sistemul trebuie să fie atât de inteligent încât să reușească nu doar să realizeze transcrierea întrebării tale, ci să și înțeleagă ce îi ceri.

 

Aici am ajuns în clipa de față: am ajuns de la digit recognition, la comenzi vocale foarte specifice, iar acum suntem ajunși în deplin limbaj natural. Următorul pas este să luăm cuvintele scrise de Dragon Dictation și să le punem la acțiune. E nevoie de interpretare semantică sau de înțelegere de limbaj natural și să trecem la acțiune. Asta face Siri. Și asta facem noi în cadru produsului nostru Dragon TV. Parte din asta se poate vedea la televizorul lansat de curând în colaborare cu Samsung.

 

În clipa de față ne concentrăm pe telefoane mobile, automobile și televizoare. Vrem să facem posibilă comunicarea cu aceste device-uri într-un mod cât mai natural. Asta ajută să găsești mai ușor funcțiile acestor aparate, pentru că acestea devin din ce în ce mai complexe. E dificil pentru mine și pentru tine să găsim toate aceste funcții ale aparatelor. Vrei, probabil, să-i spui telefonului “Deschide camera foto” sau televizorului “Intră pe YouTube”. Dacă vrei să faci acum asta pe televizorul tău, e o adevărată bătaie de cap să intri pe YouTube. Telecomenzile din ziua de azi sunt niște chestii primitive, care costă mai puțin de doi dolari. Spre automobile ne concentrăm din rațiuni ce țin de siguranță. Recunoașterea vocală îți permite să te concentrezi pe volan și pe drumul pe care îl ai în față.

 

Vrem să facem posibilă o comunicare în limbaj natural cu device-urile. Atât pentru comandă și control, cât și pentru funcția de căutare.

 

Ce fel de utilizări va avea aceste voice user interfaces în viitor?

”Vrem să facem posibilă o comunicare în limbaj natural cu device-urile. Atât pentru comandă și control, cât și pentru funcția de căutare”

 

Ne concentrăm, așa cum spuneam, pe telefoane mobile, tv și automobile. Suntem furnizori pentru toți producătorii de automobile. Dacă vezi o mașină cu apelare vocală la bord, tehnologia ne aparține. Caracteristicile acestor device-uri devin tot mai numeroase. Sunt tot mai complicate, iar pentru oamenii e tot mai dificil să le poată opera. În viitor vom putea controla vocal tot mai multe aparate din propria casă. Uite un exemplu: la cuptorul meu cu microunde, vechi de 50 de ani, eu mă chinui de două ori pe an să îi modific setarea de timp atunci când se schimbă ora, de vară sau de iarnă. Îmi ia două minute până să-mi aduc aminte cum se face lucrul ăsta. Mulți oameni nu sunt însă capabili să facă asta.

 

Vrem să dezvoltăm roboți care să îți deschidă ușa și să te întâmpine când ajungi acasă, iar apoi să-i poți spune “Du-te la frigider și adu-mi o sticlă de bere”. Poate că lucrul acesta va fi posibil în zece ani. Noi vrem să facem posibil genul acesta de accesibilitate.

 

Interacțiunea cu computerele devine tot mai complexă. Astăzi avem la dispoziție controlul gestual, recunoașterea vocală. Unde vedeți viitorul acestor interacțiuni?

 

Într-o multi-modalitate. Va fi cu un pic de voce, în funcție de situație, va fi cu un pic de gesturi, la fel, în funcție de context. Vor fi și atingeri. Dragon Dictation va fi folosit când stai într-o încăpere în care e liniște, dar nu într-un loc aglomerat. Într-o încăpere cu zgomot, din contră, folosești tehnologia Swype, disponibilă pe telefoanele mobile. Swype te ajută să duci la capăt o frază, fără să fii nevoit să scrii toate literele, pentru că tehnologia ghicește cuvântul și te scutește de la a scrie totul literă cu literă.

 

Ce mai pregătiți pentru piața românească?

 

Suntem în discuții cu diverși terți din România care sunt interesați să dezvolte aplicații pe baza tehnologiei noastre. E posibil ca și producătorii de telefoane să introducă recunoașterea vocală în aparatele pe care le vor vinde în România.

 

__

 

PROZODIABATOVINA!

Am vrut să vedem de ce între viitorul frumos descris de Reimund Schmald și realitatea zugrăvită în cuvinte nepotrivite de Dragon e un hău așa de mare. Așa că am vorbit cu Diana Trandabăț, cercetător post-doctoral la Facultatea de Informatică din cadrul Universității Ioan Cuza din Iași.

ACCENT NOT FOUND: Pentru lucrarea sa de doctorat, concentrată pe natural language processing, Diana Trandabăț a mers în sens invers față de Nuance Communication: de la text la voce. Dar concluzia ei e valabilă și pentru a explica incapacitatea Dragon Dictation de a scrie când i se vorbește rapid: computerele încă nu se pricep la accentuarea naturală a cuvintelor în vorbire.

ME-KA-NIK: Trandabăț a studiat modul în care se realizează trecerea unui text în vorbire, cu ajutorul unui sistem semi-automat, iar cele mai mari bătăi de cap i le-a dat rostirea metalizată de care computerele nu se pot nicicum dezobișnui. “Dacă încerci să transformi textul în vorbire și pui cuvintele unul lângă altul, fără un șablon de rostire, acesta este reprodus mecanic de computer, fără o cursivitate specifică rostirii pe care o practicăm curent. Nu mai există acea muzicalitate a limbii cu care suntem obișnuiți. Fiecare cuvânt rostit de computer se termină în jos”.

DAS PROBLEM: Procesul prin care este eliminată această metalizare a cuvintelor, rostite în acest moment fără câtuși de puțină teatralitate inclusiv de supra-dotatul Siri, se numește prozodie. Iar Diana Tarabăț recunoaște că nu a ajuns la performanța de a învăța un computer să jongleze cum se cuvine cu prozodia, pentru a ne putea gâdila urechile în modul acela plăcut. “Trebuie folosite informații sintactice și semantice pentru a ajuta computerul să scape de metalul cuvintelor”.

Alte articole