Alexa ascultă mereu, dar nu înregistrează continuu. Nu trimite nimic către serverele cloud până când nu te aude rostind cuvântul de trezire (Alexa, Echo sau Computer). Dar să asculți cuvinte de trezire este mai greu decât ai putea crede.
Hardware-ul Echo nu este chiar atât de inteligent. Fără internet, orice cerere sau întrebare pe care o puneți va eșua. Acest lucru se datorează faptului că comenzile tale sunt trimise în cloud pentru interpretare și decizii. Amazon nu vrea ca fiecare conversație pe care o aveți în fața unui difuzor inteligent să fie înregistrată, ci mai degrabă, doar comenzile pe care le dați difuzorului inteligent. Din acest motiv, compania folosește un cuvânt de trezire pentru a atrage atenția difuzorului inteligent. Pentru a realiza acest lucru, Amazon folosește o combinație de microfoane reglate fin, un buffer de memorie scurt și antrenament de rețea neuronală.
Cuprins
Microfoanele reglate fin vă identifică vocea
LED-ul albastru deschis va fi întotdeauna îndreptat spre direcția vocii tale.
Difuzoarele cu asistent vocal, cum ar fi Echo și Echo Dot, au de obicei mai multe microfoane încorporate. Echo Dot, de exemplu, are șapte. Această matrice oferă dispozitivelor mai multe abilități, de la audierea comenzilor rostite la distanță, până la separarea zgomotului de fundal de voci.
Acesta din urmă este util în special pentru detectarea cuvintelor de trezire. Folosind microfoanele sale multiple, Echo vă poate indica locația în raport cu locul în care se află și poate asculta în acea direcție, ignorând restul camerei.
Vedeți acest lucru în acțiune ori de câte ori utilizați cuvântul trezire. Stați lângă un Echo sau Echo Dot și rostiți cuvântul de trezire. Observați că inelul se aprinde în albastru închis, apoi de un albastru mai deschis când se învârte în cerc și „îndreptă” spre tine. Acum, mutați câțiva pași în lateral și rostiți din nou cuvântul de trezire. Observați că luminile albastre-deschis vă urmăresc.
A ști unde te afli, ajută dispozitivul să se concentreze mai bine asupra ta și dezactivați zgomotele venite din altă parte.
Memoria scurtă împiedică difuzorul să țină prea mult
Dispozitivele Echo au o mulțime de spațiu de stocare, dar nu o folosesc prea mult. Potrivit lui Rohit Prasad, vicepreședintele Amazon și om de știință șef al Alexa Artificial Intelligence, un ecou poate stoca fizic doar câteva secunde de sunet.
Prin reducerea capacității sale, Amazon nu numai că vă oferă mai multă confidențialitate (este un loc în mai puțin în care este stocată vocea dvs.), ci și împiedică Echo să asculte conversații întregi, limitându-și concentrarea la găsirea cuvântului de trezire.
Imaginează-ți că ai o casetă de trei secunde și un magnetofon. Să presupunem că, după ce a ajuns la sfârșit, banda sa întors înapoi la început iar și iar. Dacă ai început să înregistrezi o conversație, tot ce ai spus acum patru secunde ar fi șters și înregistrat imediat. Asta face un Amazon Echo.
Înregistrează continuu, dar șterge tot ce tocmai a înregistrat în același timp. Această perioadă scurtă de atenție înseamnă că tot ceea ce poate auzi este cuvântul „Alexa” și nu mult mai mult. Trei secunde, totuși, sunt suficient de lungi pentru ca acel cuvânt să fie înregistrat, examinat și acționat corespunzător.
Antrenamentul Neural Net ajută la potrivirea modelelor
O reprezentare a straturilor utilizate de algoritmii Amazon.
În cele din urmă, Amazon depinde antrenamentul rețelei neuronale pentru a-l învăța pe Echo cum să potrivească modelul. La fel ca și alte forme de învățare automată, Amazon își antrenează algoritmii alimentându-i instanță după instanță a cuvântului Alexa (sau Computer sau Echo, în funcție de cuvântul de trezire pe care îl antrenează compania).
Ideea este să acopere fiecare inflexiune și accent, dar și contextul. Amazon vrea ca Echo-ul tău să recunoască diferența atunci când vorbești cu el, când vorbești despre asta sau, poate, când vorbești cu o persoană pe nume Alexa. Microfoanele direcționale ajută și la acest obiectiv.
Cu fiecare cuvânt pe care Echo îl aude, rulează audio prin straturi de algoritmi. Fiecare strat este conceput pentru a exclude elementele false pozitive, căutând sunet asemănător sau indicii de context. Dacă o verificare a stratului trece, cuvântul trece la următorul. În cele din urmă, când dispozitivul local decide că a auzit cuvântul de trezire, începe să înregistreze și să transmită sunetul către serverele cloud ale Amazon. Amazon folosește patru algoritmi: unul pentru fiecare cuvânt de trezire (Alexa, Computer, Echo) și unul pentru Alexa Guard, care tratează sunete specifice, cum ar fi spargerea sticlei, ca un cuvânt de trezire.
Dar chiar și atunci când apare o potrivire, Amazon încă efectuează verificări mai complicate. Ați observat că, atunci când cineva rostește cuvântul Alexa într-o emisiune TV sau într-o reclamă, de obicei nu provoacă un răspuns de la Echo? Asta pentru că Amazon face și o verificare în cloud.
Verificările cloud exclud unele false pozitive
Acest reclamă amuzantă Alexa nu vă va trezi Ecoul.
Când companiile fac reclame care prezintă Alexa, pot trimite audio la Amazon. Compania rulează audio prin algoritmi similari de potrivire a modelelor utilizați pentru a identifica cuvântul de trezire. Odată ce acea instanță exactă este complet catalogată, este adăugată la o bază de date.
Ca parte a procesului atunci când ajungeți la cloud, Echoul dvs. include informații despre cuvântul de trezire pe care l-a auzit și verifică baza de date. Ori de câte ori găsește o potrivire, Amazon îi instruiește pe Echo să ignore cuvântul de trezire, să oprească și să renunțe la orice sunet înregistrat.
În plus, Amazon verifică cazurile de cuvânt de trezire rostit simultan. Nu toate companiile trimit audio către Amazon, așa că compania a venit cu o soluție de rezervă nouă. După ce verifică o potrivire a bazei de date, compania compară amprenta cuvântului wake cu orice alte instanțe care apar în același timp. Este puțin probabil ca doi oameni care spun Alexa simultan să sune exact la fel, așa că, dacă există o potrivire, Amazon știe că este probabil o reclamă sau o emisiune TV și ignoră cererea.
În ciuda tuturor verificărilor, încă apar fals pozitive. Puteți asculta ceea ce a înregistrat Echo Centrul de confidențialitate al Amazon, și probabil veți găsi cel puțin un fals pozitiv în grup. Dar tehnologia este îmbunătățită în mod continuu și, în cele din urmă, Amazon și-ar dori să funcționeze fără niciun cuvânt de trezire.