语义听觉：采访 Shyam Gollakota

语义听觉：采访希亚姆-戈拉科塔

作者：布拉德-戴蒙德
2024-01-15

我喜欢我的这副降噪耳机。它们舒适、时尚，是享受音乐的绝佳方式。最重要的是，它们能消除噪音！当我走在繁华的街道上，或者发现自己身处拥挤的商场时，我只需戴上耳机，就能将自己从嘈杂混乱的世界中分离出来。无论我选择什么美妙的音乐，我都会沉浸其中，让周围的压力逐渐消失。

与世隔绝虽然有时会让人感到舒适，但这是一种权衡。我的降噪耳机能让我在嘈杂的世界中找到安慰，但它们是通过切断整个感官来实现的，而这个感官通常被认为是第二重要的感官。也许我在繁忙的街道或拥挤的商场里会感觉更平静，但也许我也失去了重要的信息，比如驶来的紧急车辆或朋友呼唤我的名字。

我也失去了生活中更多美好的东西。我可以用耳机屏蔽公园里人们的谈话，但我也会失去鸟儿的歌声或风吹过草地的呼啸声。头顶上那可怕的雷雨声也会随着按下按钮而消失，但我也失去了头顶上那舒缓入睡的雨声。要想两全其美，简直是不可能的。

直到现在希亚姆-戈拉科塔（Shyam Gollakota）教授和他的实验室在双耳耳机的语义听觉方面取得了令人印象深刻的进展，这一进展将改变耳机市场。移动智能实验室利用深度机器学习，创建了一个可以在现实世界中泛化的神经网络，将降噪耳机变成了可以选择让什么声音通过的智能设备。

为了将耳机变成智能设备，希亚姆和他的团队首先创建了机器学习模型。这些模型可以在智能手机这样普通的设备上运行，能够识别用户周围的不同声音。识别出声音后，希亚姆的模型就能按照用户的意愿操控声音场景。

首先，耳机会像通常的降噪耳机一样，消除用户周围的所有噪音。然后，利用越用越好的机器学习模型，耳机会播放用户选择听到的特定声音。用户体验到的只有风吹过树叶的幸福感，而没有周围恼人的唠叨声。

为了让用户真正感受到自然的体验，整个过程需要在^{百分之一秒}内完成，使音频与视觉相匹配。这尤其是希亚姆教授及其团队面临的一大挑战。其他机器学习算法可以使用几秒钟长的音频，而他们只需要几毫秒就能达到很好的效果。

语义听觉能让重要的声音保持响亮，而让您不感兴趣的声音变小。

最终，实现这种快速反应时间是一个相当大的挑战。这项技术并没有什么重大突破。取而代之的是希亚姆和他的实验室的辛勤工作和奉献精神，他们成功地开发了处理技术，为听众带来了自然的声音重放。

实验室遇到的另一个挑战是方向性。为了让用户获得最佳体验，耳机必须保留噪音的方向，为用户提供完全沉浸式的体验。他们的神经网络有效地将一副普通耳机变成了控制论耳朵，能够理解周围的声音场景。

正如希亚姆教授在下面的片段中所讨论的，他们在时间和方向性方面的成功创造了一种未来技术，这种技术将在未来几年内出现在音频产品中：

最令人印象深刻的是，语义听觉可以在当今大多数现有的降噪耳机上激活。软件本身通过连接的智能手机运行，无需与耳机硬件进行任何技术整合。虽然这会增加手机的电池使用量，但希亚姆希望这个问题能够得到解决。

希亚姆教授希望这项技术能引起人们的兴趣，尽管它似乎不可能长久地独善其身。语义听觉的发展为音频设备的未来带来了巨大的希望，因为更智能的设备将为消费者带来更好的音频。语义听觉似乎将大有作为，因为它是科幻领域的一次飞跃，技术可以改变我们感知周围世界的方式。

语义听觉的进步有望带来全新的音频体验。如果可以有选择性地选择听什么，人们就会想要这样的体验。语义听觉耳机让人们有机会选择自己想要体验的内容，从而改善当下的日常生活。

这样的进步只会带来更多的进步，因为新的可能性不断被发现和探索。Shyam 和他的实验室已经在语义听觉方面迈出了第一步，但仍有许多工作要做。在 Soundskrit，我们非常期待看到希亚姆和他的实验室的下一步行动。

有兴趣亲眼目睹希亚姆的更多作品吗？希亚姆的网页包含大量前沿研究成果。