Poți asculta varianta audio a acestui material în avanpremieră în podcastul nostru. Abonează-te pentru a asculta pe platforma ta favorită.


Vatis Tech e un startup care oferă o infrastructură de transcriere a discursului audio în text. Au ajuns la o acuratețe de 95% pentru limba română și limba engleză și vor să se extindă spre alte limbi. Compania a primit în septembrie 2021 o investiție de 200.000 de euro de la Early Game Ventures, Sparking Capital și Mălin Ștefănescu.

Startup-ul are 20 de persoane care lucrează, de la echipe de produs, echipe tehnice, dar și echipe de vânzări sau corectori umani ai inteligenței artificiale care îmbunătățesc algoritmul. Pentru că Vatis funcționează destul de simplu, deși tehnologia e complexă. Utilizatorii urcă un fișier audio, iar inteligența artificială îl transcrie rapid, dar datele pot fi corectate pentru a îmbunătăți acuratețea.

În momentul de față focusul pentru Vatis Tech este dezvoltarea pe limbile europene, mai puțin dezvoltate. Pentru că piața pe limba engleză e deja competitivă, la fel ca și cea pe spaniolă. Adrian Ispas menționează că țintele lor sunt Portugalia, Polonia sau Franța, direcții care vor fi realizate după următoarea investiție.

Începuturile problemei de rezolvat pentru Vatis Tech

Povestea a început cu o problemă personală a lui Adrian. Îi plăcea să asculte podcasturi și interviuri, dar voia să se întoarcă la anumite momente din acestea. Dar pe audio e greu. Așa s-a născut ideea de rezolvat. A văzut că mai mulți oameni au aceeași problemă și a pornit a face o platformă pentru podcasteri sau jurnaliști, o platformă web pentru management de fișiere audio care folosea o soluție de recunoaștere a discursului de la o companie mare de tehnologie. Dar lucrurile nu erau perfect.

„Mai mult te încurca decât te ajuta. Am zis ok, hai să construim noi o tehnologie de speech recognition robustă și de înaltă acuratețe pe limba română, pentru că nu există acum ceva fiabil”, spune Adrian Ispas.

Cum funcționează inteligența artificială din Vatis Tech

În spatele soluției propuse de Vatis Tech, disponibilă acum într-o platformă web, se află algoritmi de inteligență artificială și rețele neuronale. El menționează că la început a fost important să descopere ce pot face produsele deja existente, ca să nu pornească de la zero. Astăzi au ajuns la 95% acuratețe.

„95% pare mult, dar acei 5% sunt cei mai importanți. Cu cât te duci spre 99% cu atât mai dificil e de rezolvat. Ținta noastră e să facem o tehnologie cât mai robustă, la un nivel de 95% acuratețe pe mai multe domenii, fie că vorbim de media, legal, medical sau call centere”, explică Adrian Ispas.

Dacă duc tehnologia la 95-99% acuratețe pe mai multe domenii ajung la nivelul recunoașterii umane. Nici noi nu pricepem tot ce ne zic ceilalți, așa și tehnologia. Practic, Vatis Tech nu vrea să înlocuiască omul cu totul, ci doar să-i câștige timp.

„Vrem să avem paritate 1 la 1 cu transcrierile manuale ale oamenilor, dar să o facem de 10 ori mai rapid care ar face asta”, spune fondatorul Vatis Tech.

Pe lângă inteligență artificială, algoritmii de la Vatis Tech reușesc să recunoască și pauze în vorbire, semne de întrebare, exclamații, având un strat de recunoaștere naturală a limbajului care vine peste un model acustic. Echipa de la Vatis a folosit multe texte în spate ca să învețe produsul să recunoască și intonațiile sau semnele de punctuație gramaticale.

„În momentul în care urci un audio pe platforma noastră avem 4-5 algoritmi care merg secvențial ca să scoată acel transcript final”, spune Ispas.

Unde poate fi folosit Vatis Tech

În momentul de față Vatis Tech este folosit în media (n.r. - interviul cu Adrian a fost transcris automat de către Vatis Tech), în domeniul juridic, de către medici, dar și de bănci care vor să transcrie convorbirile din call center. De asemenea, Vatis Tech funcționează și ca API, adică poate fi integrat în alte produse.

„Poate fi folosită ca platformă web disponibilă pentru oricine, ai un editor de text și poți să sincronizezi textul cu audio. Poți automatiza cu Vatis Tech diferite flow-uri. Sunt câteva industrii unde produsul nostru a fost integrat și s-a adăugat practic un strat suplimentar de inteligență unui produs sau s-au automatizat anumite procese”, explică Adrian Ispas.

În plus, testele cele mai dificile sunt în zona de monitorizare media sau în instanță, unde grefierii par niște magicieni care transcriu.

Ce e monitorizarea media? Practic sunt oameni, de obicei foarte tineri, care urmăresc emisiune după emisiune și transcriu cuvânt cu cuvânt ce se întâmplă acolo. Aceasta e folosită de către branduri pentru a monitoriza mențiunile, de către CNA pentru a vedea dacă au existat abateri, dar și de către instituții care au nevoie de informații la prima oră.

„Vatis Tech e folosit în zona de monitorizare media. Acum oamenii iau fișierele audio, le transcriu prin noi și apoi doar le corectează, plus că pot identifica automat numele de brand folosite”, spune Adrian Ispas.

Vatis are și clienți grefieri, care făceau o muncă manuală ce dura uneori și 6-7 ore pentru transcrierea unei ședințe de o oră. „Acum totul e automatizat, iar grefierul doar trece prin textul procesului pentru a-l corecta”, spune cofondatorul de la Vatis Tech.

Tehnologia companiei poate fi folosită și pentru transcriere instantanee, de exemplu de la televizor. Ca o subtitrare. „Putem livra transcrierea în timp real și e deja folosită de clienții noștri”, explică Ispas.

Pe termen mediu și lung, folosirea tehnologiei Vatis Tech de către asistenți virtuali, de exemplu, ar putea fi o perspectivă pentru Vatis. Inclusiv una pentru exit.

De la zero la recunoaștere în 6-7 luni

Pentru a construi produsul pentru limba română, Vatis a avut nevoie de un an și jumătate, în iunie 2022 algoritmul fiind finalizat.

„În momentul de față, cu tot ce știm, putem ca în 6-7 luni să punem pe picioare o limbă străină”, explică Adrian. Acest lucru va fi un obiectiv pentru Vatis în momentul în care vor primi o nouă investiție. Rapiditatea este esențială, dar Adrian știe că există un risc când activează pe o piață unde sunt giganți ca Microsoft sau Google.

„Focusul lor e mai degrabă să construiască tehnologie pentru produsele lor de bază și se concentrează pe zona de engleză, unde e o piață enormă”, spune Adrian. În plus, de multe ori și companiile mari, chiar dacă au bugete nelimitate, nu fac o tehnologie la fel de bună ca un startup.

„Încercăm să ne protejăm prin faptul că implementăm lucrurile calitativ. Avem oameni talentați care au făcut posibil acest produs și întotdeauna ne concentrăm să facem un produs bun”, spune acesta. Dar, așa cum ziceam, e o piață pe care giganții pot deveni un beneficiu de business pentru Vatis Tech, printr-o achiziție ulterioară.

Un mesaj pentru fondatori

Adrian Ispas a trecut peste momentul de evoluție tehnologică, a primit o primă investiție, dar drumul companiei continuă spre extinderi internaționale. Am vrut însă ca Adrian să ofere un sfat altor fondatori de startup-uri din experiența sa.

„E bine ca atunci când ai o idee să vezi dacă și alți oameni au nevoie de ea. Uită-te în jur, vezi care sunt problemele oamenilor, pentru că de la ele pleacă totul. Vezi cum o poți rezolva tu”, spune Adrian. El menționează că e important ca fondatorii să nu aibă o impresie clară de la început despre cum va arăta produsul, pentru că acesta evoluează.

„Noi și acum nu știm exact cum va arăta produsul 100% peste 5 ani. E un proces continuu de învățare și de feedback”, explică Adrian.

Între timp, Adrian consideră că inteligența artificială e aici ca să ne schimbe viața și să rezolve probleme raționale. Unde va avea dificultăți AI-ul? Ei bine, la emoție. „Limitările vor fi pe partea emoțională, de a înțelege m ai bine oamenii, cum simt, cum reacționează. Task-urile punctuale vor fi rezolvate de inteligența artificială”, crede Adrian. Acesta e viitorul.