L'audition sémantique : Un entretien avec Shyam Gollakota

L'audition sémantique : Entretien avec Shyam Gollakota

Par Brad Diamond
2024-01-15

Paix et calme

J'adore ma paire d'écouteurs à réduction de bruit. Ils sont confortables, élégants et constituent un excellent moyen d'écouter de la musique. Mais le plus important, c'est qu'ils réduisent le bruit ! Lorsque je marche dans une rue animée ou que je me trouve dans un centre commercial bondé, je peux me séparer d'un monde bruyant et chaotique simplement en mettant mes écouteurs. Je suis alors transporté par la belle musique que je choisis, laissant le monde stressant qui m'entoure s'évanouir.

L'isolement, bien que parfois réconfortant, est un compromis. Mon casque antibruit m'aide à trouver du réconfort dans un monde cacophonique, mais il le fait en coupant un sens entier, un sens qui est généralement considéré comme le deuxième sens le plus important. Je me sens peut-être plus calme dans une rue animée ou un centre commercial bondé, mais je perds peut-être aussi des informations vitales, comme l'approche d'un véhicule d'urgence ou l'appel de mon nom par un ami.

Je perds également les aspects les plus beaux de la vie. Je peux ignorer les gens qui parlent au parc avec mes écouteurs, mais je perds aussi le chant des oiseaux ou le sifflement du vent dans l'herbe. L'horrible orage au-dessus de ma tête disparaît d'un simple clic, mais je perds aussi le son apaisant de la pluie qui m'aide à m'endormir. Il est tout simplement impossible d'avoir le meilleur des deux mondes.

Avec l'audition sémantique, concentrez-vous sur ce que vous voulez vraiment entendre.

Comprendre un monde sonore

Jusqu'à présent. Le professeur Shyam Gollakota et son laboratoire ont réalisé des avancées très impressionnantes en matière d'audition sémantique dans les casques binauraux, des avancées qui vont transformer le marché des casques. En utilisant l'apprentissage automatique profond, le Mobile Intelligence Lab a créé un réseau neuronal capable de se généraliser dans le monde réel, transformant les casques antibruit en dispositifs intelligents capables de choisir les sons qu'ils laissent passer.

Pour transformer les écouteurs en appareils intelligents, Shyam et son équipe ont d'abord créé des modèles d'apprentissage automatique. Ces modèles, qui peuvent être exécutés sur un appareil aussi banal qu'un téléphone intelligent, peuvent identifier différents sons autour de l'utilisateur. Après avoir identifié les sons, les modèles de Shyam peuvent manipuler la scène acoustique, selon les souhaits de l'utilisateur.

Le casque annule d'abord tous les bruits qui entourent l'utilisateur, comme le font généralement les casques antibruit. Ensuite, grâce à des modèles d'apprentissage automatique qui s'améliorent au fur et à mesure qu'ils sont utilisés, les écouteurs diffusent les sons spécifiques que l'utilisateur choisit d'entendre. L'utilisateur ne ressent que le bonheur du vent soufflant dans les feuilles, sans les bavardages gênants qui l'entourent.

Timing et directionnalité

Pour que cette expérience soit vraiment naturelle pour l'utilisateur, l'ensemble du processus se déroule en un ^centième de seconde, de sorte que le son corresponde à l'image. Il s'agit là d'un aspect important du défi auquel le professeur Shyam et son équipe ont dû faire face. Alors que d'autres algorithmes d'apprentissage automatique pouvaient utiliser des données audio de quelques secondes, ils devaient obtenir de bons résultats en n'utilisant que quelques millisecondes.

L'audition sémantique maintient les sons importants à un niveau élevé tout en mettant en sourdine les sons qui ne vous intéressent pas.

En fin de compte, obtenir ce temps de réaction rapide a été un véritable défi. Il n'y a pas eu de coup d'éclat qui a ouvert cette technologie au monde. C'est plutôt le travail acharné et le dévouement de Shyam et de son laboratoire qui ont permis de mettre au point un traitement permettant d'obtenir un son naturel pour les auditeurs.

Un autre défi auquel le laboratoire a été confronté est celui de la directionnalité. Pour que l'expérience soit la meilleure possible pour l'utilisateur, le casque préserve la direction du bruit, offrant ainsi une expérience totalement immersive à l'utilisateur. Leur réseau neuronal transforme effectivement une paire d'écouteurs ordinaires en oreilles cybernétiques, capables de comprendre la scène acoustique qui les entoure.

Comme l'explique le professeur Shyam dans le clip suivant, leur succès en matière de synchronisation et de directionnalité a donné naissance à une technologie futuriste qui sera utilisée dans les produits audio au cours des prochaines années :

Le plus impressionnant est que l'audition sémantique peut être activée sur la plupart des casques antibruit existants. Le logiciel lui-même est exécuté à partir d'un smartphone connecté, sans aucune intégration technique dans le matériel du casque. Bien que cela augmente l'utilisation de la batterie d'un téléphone, Shyam espère que ce problème sera résolu.

Une conception intelligente

Le professeur Shyam espère que cette technologie suscitera de l'intérêt, même s'il est peu probable qu'elle reste longtemps isolée. Ce développement de l'audition sémantique est extrêmement prometteur pour l'avenir des appareils audio, car des appareils plus intelligents permettent d'offrir un meilleur son au consommateur. L'audition sémantique semble promise à un grand avenir, car elle constitue un bond en avant dans le domaine de la science-fiction, où la technologie peut changer la façon dont nous percevons le monde qui nous entoure.

Les progrès de l'audition sémantique promettent une toute nouvelle expérience audio. Si les gens ont la possibilité de choisir sélectivement ce qu'ils entendent, c'est ce qu'ils voudront. Les casques auditifs sémantiques donnent aux gens la possibilité d'améliorer leur vie quotidienne dans l'instant, en leur permettant de choisir ce qu'ils veulent entendre.

Des avancées comme celle-ci ne font que débloquer d'autres avancées, à mesure que de nouvelles possibilités sont découvertes et explorées. Si Shyam et son laboratoire ont fait les premiers pas dans le domaine de l'audition sémantique, il reste encore des progrès à faire. Chez Soundskrit, nous sommes très impatients de voir ce que Shyam et son laboratoire feront ensuite.

Vous souhaitez en savoir plus sur le travail de Shyam ? La page web de Shyam contient une pléthore de recherches de pointe.

AudioHub

AudioHub

L'audition sémantique : Entretien avec Shyam Gollakota

L'audition sémantique : Entretien avec Shyam Gollakota

Paix et calme

Comprendre un monde sonore

Timing et directionnalité

Une conception intelligente