Cum funcționează aplicațiile de identificare muzicală precum Shazam?

Aplicațiile care identifică muzica par inițial a fi un fel de magie, dar în realitate, ele se bazează pe un algoritm complex, capabil să recunoască melodiile instantaneu. Iată cum reușesc.

Misterul din spatele identificării muzicale

Cu siguranță, ni s-a întâmplat tuturor măcar o dată. Ne aflăm la restaurant, într-o cafenea sau într-un magazin, iar brusc auzim o melodie care ne place. Poate că este o melodie familiară sau una pe care o auzim pentru prima dată. Atunci scoatem telefonul, pornim Shazam și îl îndreptăm spre boxă. În câteva momente, aplicația ne spune numele melodiei, artistul și unde o putem asculta online.

Aceste aplicații sunt rapide, precise și pot identifica chiar și cele mai puțin cunoscute piese. Ele funcționează prin izolarea melodiilor dintr-o înregistrare și căutarea lor într-o vastă bază de date muzicală. Tehnologia folosită este complexă și de-a dreptul impresionantă.

Poate fi surprinzător faptul că Shazam, așa cum îl cunoaștem astăzi, a fost lansat în 2002, iar sistemul era la fel de precis și rapid ca în prezent. Acest lucru se datorează unui algoritm unic care a schimbat lumea muzicii.

Mai mult decât simplul text

La o primă impresie, aplicațiile de identificare muzicală, cum ar fi Shazam, pot părea simple. S-ar putea crede că ascultă doar versurile, la fel ca un asistent vocal, și le caută într-o bază de date pentru a ne spune despre ce melodie este vorba.

Totuși, majoritatea aplicațiilor de identificare a muzicii sunt capabile să identifice atât piesele instrumentale, cât și melodiile cântate. Aceasta deoarece, în loc să analizeze versurile, ele caută „amprente” unice pentru fiecare melodie în bazele lor de date extinse.

Tehnologia amprentelor digitale muzicale

Probabil aveți dispozitive care se deblochează cu ajutorul amprentei dvs., un model unic format de liniile fine de pe deget. În mod similar, atunci când înregistrați un fragment audio, acesta este transformat în modele de date pe care Shazam sau altă aplicație le poate căuta în baza sa de date.

La o primă vedere, această metodă pare a fi vulnerabilă la probleme. De cele mai multe ori, când ascultăm muzică în public, există zgomot de fond și distorsiuni cauzate de difuzoare, care pot face melodiile greu de identificat. De asemenea, există o mulțime de date capturate chiar și într-un fragment audio scurt, ceea ce face căutarea acestor modele într-o bază de date cu milioane de melodii o sarcină dificilă.

Într-un interviu acordat Scientific American în 2003, Avery Li-Chun Wang, cercetător principal de date și co-fondator al Shazam, explică modul în care algoritmul lor rezolvă aceste probleme. Informațiile dintr-un fragment audio pot fi vizualizate printr-o diagramă 3D, cunoscută sub numele de spectrogramă, care arată modificările frecvențelor în timp. Se ține cont și de amplitudine, adică cât de puternic este un sunet. Amplitudinea este reprezentată pe spectrogramă prin intensitatea culorii.

În același fel în care oamenii percep sunetul doar la anumite frecvențe, Shazam nu analizează întreaga melodie atunci când efectuează o căutare, ci doar „vârfurile”, adică zonele cu cea mai mare energie dintr-un clip audio. Amprentele digitale capturate conțin doar punctele de frecvență maximă într-un anumit interval de timp, urmate de punctele de amplitudine maximă la acele frecvențe.

Într-o lucrare de cercetare pentru Universitatea Columbia, Wang a menționat că această metodă permite eliminarea majorității părților inutile ale unui clip audio, cum ar fi zgomotul de fond și distorsiunile. De asemenea, reduce dimensiunea amprentelor digitale, astfel încât identificarea unei melodii în baza de date vastă să dureze doar câteva milisecunde.

Impactul Shazam

Pe lângă utilitatea lor pentru ascultătorii obișnuiți care aud o melodie ce le place, aplicațiile de identificare muzicală contribuie și la modelarea industriei muzicale.

Posturile de radio și serviciile de streaming folosesc deseori datele privind melodiile căutate de utilizatori prin Shazam, pentru a afla ce piese sunt populare. Aceste date sunt valoroase deoarece indică atractivitatea și potențialul de succes al unei melodii, indiferent de artistul care o interpretează. Atunci când identificați o melodie cu ajutorul aplicației, puteți vedea imediat câți alți utilizatori au încercat să o identifice.

De la apariția Shazam, au apărut și câțiva concurenți. Soundhound susține că poate identifica o melodie doar dacă o cântăm sau fredonăm, însă rezultatele sunt variabile. Există, de asemenea, identificatoare de melodii integrate în asistenții vocali, cum ar fi Google Assistant, care funcționează similar cu sistemul Shazam.