Alexa ascultă în mod constant, dar nu efectuează înregistrări neîntrerupte. Ea nu transmite date către serverele cloud până când nu detectează rostirea cuvântului de activare (fie el „Alexa”, „Echo” sau „Computer”). Recunoașterea acestor cuvinte este, de fapt, o operațiune mai complexă decât s-ar putea crede.
Componentele hardware ale dispozitivului Echo nu sunt, în esență, atât de sofisticate. În absența unei conexiuni la internet, orice solicitare sau interogare adresată va eșua. Aceasta se datorează faptului că comenzile tale sunt transferate către cloud pentru analiză și procesare. Amazon dorește să evite înregistrarea continuă a tuturor conversațiilor din preajma unui difuzor inteligent, optând doar pentru captarea comenzilor adresate direct acestuia. De aceea, compania utilizează un cuvânt de activare pentru a capta atenția difuzorului. Acest lucru este realizat printr-o combinație de microfoane precise, o memorie tampon scurtă și antrenament bazat pe rețele neuronale.
Microfoanele special calibrate îți localizează vocea
Indicatorul LED albastru este orientat întotdeauna către direcția de unde provine vocea ta.
Dispozitivele cu asistent vocal, precum Echo și Echo Dot, integrează de obicei mai multe microfoane. Spre exemplu, Echo Dot dispune de șapte microfoane. Această matrice oferă dispozitivelor capacități multiple, de la ascultarea comenzilor rostite de la distanță, până la diferențierea vocii de zgomotul ambiental.
Această ultimă funcție este deosebit de importantă pentru identificarea cuvintelor de activare. Utilizând multiplele microfoane, Echo poate stabili poziția ta în raport cu el și se poate concentra pe ascultarea în acea direcție, ignorând celelalte sunete din încăpere.
Poți observa acest lucru în acțiune atunci când utilizezi cuvântul de activare. Apropie-te de un Echo sau Echo Dot și pronunță cuvântul specific. Vei observa că inelul luminos se aprinde într-un albastru intens, apoi într-un albastru mai deschis, rotindu-se și „indicându-te”. Apoi, deplasează-te câțiva pași lateral și repetă cuvântul de activare. Vei observa cum luminile albastre-deschis te vor urmări.
Cunoașterea poziției tale ajută dispozitivul să se concentreze mai eficient pe vocea ta și să reducă zgomotele din alte direcții.
Memoria tampon limitată previne reținerea excesivă a sunetului
Deși dispozitivele Echo au o capacitate considerabilă de stocare, aceasta nu este utilizată în mod extins. Potrivit lui Rohit Prasad, vicepreședinte Amazon și cercetător principal în inteligența artificială Alexa, un Echo poate reține fizic doar câteva secunde de sunet.
Prin limitarea capacității sale, Amazon nu doar îmbunătățește confidențialitatea (reducând cantitatea de voce stocată), ci și previne ca Echo să asculte conversații complete, concentrându-se strict pe detectarea cuvântului de activare.
Imaginează-ți că ai o bandă de casetă de trei secunde și un aparat de înregistrat. După ce banda ajunge la capăt, aceasta se reîntoarce automat la început. Dacă începi o înregistrare a unei conversații, tot ceea ce ai spus în urmă cu patru secunde ar fi șters și înregistrat din nou. Cam așa funcționează un Amazon Echo.
Acesta înregistrează încontinuu, dar șterge simultan tot ceea ce tocmai a captat. Această atenție limitată înseamnă că tot ce poate auzi este cuvântul „Alexa” și nu mult mai mult. Totuși, trei secunde sunt suficiente pentru ca acel cuvânt să fie înregistrat, analizat și acționat corespunzător.
Rețelele neuronale antrenate ajută la recunoașterea tiparelor
O ilustrație a straturilor utilizate de algoritmii Amazon.
În final, Amazon se bazează pe antrenamentul rețelelor neuronale pentru a învăța Echo cum să identifice tiparele. Asemenea altor forme de învățare automată, Amazon își antrenează algoritmii prin alimentarea cu multiple exemple ale cuvântului „Alexa” (sau „Computer” sau „Echo”, în funcție de cuvântul de activare pe care îl antrenează compania).
Obiectivul este de a acoperi fiecare inflexiune, accent și context posibil. Amazon dorește ca Echo-ul tău să poată distinge situația în care vorbești cu el, când vorbești despre el sau, posibil, când vorbești cu o persoană pe nume Alexa. Microfoanele direcționale contribuie și ele la acest obiectiv.
Cu fiecare cuvânt pe care Echo îl aude, datele audio sunt analizate printr-o serie de algoritmi. Fiecare nivel este conceput să elimine falsurile pozitive, căutând sunete și indicii contextuale relevante. Dacă un filtru este depășit, cuvântul este transmis la următorul nivel. În cele din urmă, când dispozitivul decide că a auzit cuvântul de activare, începe să înregistreze și să trimită sunetul către serverele cloud Amazon. Amazon utilizează patru algoritmi: unul pentru fiecare cuvânt de activare („Alexa”, „Computer”, „Echo”) și unul pentru Alexa Guard, care interpretează sunete specifice, precum spargerea geamului, ca pe un cuvânt de activare.
Însă, chiar și atunci când apare o potrivire, Amazon efectuează verificări mai complexe. Ai observat că, de obicei, atunci când cineva pronunță cuvântul „Alexa” într-un program TV sau reclamă, acesta nu declanșează o reacție din partea Echo? Acest lucru se datorează faptului că Amazon realizează și o verificare în cloud.
Verificările cloud elimină unele alarme false
Această reclamă amuzantă cu Alexa nu va activa Echo-ul tău.
Atunci când companiile creează reclame care includ Alexa, ele pot transmite date audio către Amazon. Compania analizează aceste date audio prin algoritmi de recunoaștere a tiparelor, similari celor utilizați pentru identificarea cuvântului de activare. Odată ce fiecare instanță este complet catalogată, aceasta este adăugată într-o bază de date.
Ca parte a procesului de analiză în cloud, Echo-ul tău include informații despre cuvântul de activare detectat și verifică această bază de date. De fiecare dată când este identificată o potrivire, Amazon instruiește Echo-ul să ignore cuvântul de activare, să oprească procesarea și să renunțe la orice date audio înregistrate.
În plus, Amazon verifică instanțele în care cuvântul de activare este pronunțat simultan. Nu toate companiile trimit date audio către Amazon, așa că a fost creată o soluție alternativă. După verificarea unei potriviri în baza de date, compania compară amprenta cuvântului de activare cu alte instanțe care apar simultan. Este puțin probabil ca doi oameni care spun „Alexa” în același timp să sune exact la fel, așa că, în cazul unei potriviri, Amazon identifică o reclamă sau un program TV și ignoră solicitarea.
În ciuda tuturor acestor verificări, uneori tot mai apar alarme false. Poți asculta ce a înregistrat Echo în Centrul de confidențialitate Amazon, unde probabil vei găsi cel puțin un fals pozitiv. Însă tehnologia este în continuă îmbunătățire, iar obiectivul final al Amazon este să funcționeze fără a mai fi necesar un cuvânt de activare.