Évaluation de la qualité de la parole et réduction du bruit

Évaluation de la qualité de la parole et élimination du bruit de fond

Par Jeffrey Leahy
2023-07-17

Évaluation de la qualité de la parole avec suppression du bruit de fond

Vous êtes-vous déjà demandé comment les entreprises évaluent la qualité vocale de leurs microphones dans des environnements bruyants ? Comment ces tests résistent-ils à l'élimination du bruit de fond ? L'évaluation de la qualité de la parole, en particulier en présence d'un bruit de fond, est un processus plus complexe qu'il n'y paraît. Les algorithmes de traitement audio, tels que la formation de faisceaux, la compression, la réduction du bruit et le contrôle automatique du gain, sont utilisés pour éliminer les bruits indésirables. Cependant, il est important de noter que ces méthodes peuvent également introduire des artefacts et des distorsions indésirables dans les enregistrements. Dans cet article, nous allons découvrir les différentes méthodes d'évaluation et souligner l'importance de ces tests pour les microphones.

Lorsque la parole est accompagnée de bruits de fond, il peut être difficile de la comprendre clairement. Parfois, le bruit devient tellement envahissant qu'il devient difficile de saisir le message transmis. Si nous utilisons un algorithme trop agressif pour supprimer les bruits de fond, il peut altérer involontairement la parole, ce qui donne un son robotique. Cette tâche devient encore plus difficile lorsque le bruit de fond est constitué de la parole elle-même, comme les conversations dans un restaurant très fréquenté.

Suppression des bruits de fond dans un café.

En outre, notre cerveau est habitué à communiquer dans des environnements bruyants, ce qui signifie que nous tolérons mieux les artefacts vocaux lorsque le niveau de bruit est plus élevé. Cependant, lorsque le niveau de bruit est très bas, nous nous attendons naturellement à une meilleure qualité de parole avec une clarté exceptionnelle. Par essence, l'objectif est de capturer le discours voulu avec une clarté et une précision excellentes, tout en réduisant ou en minimisant efficacement l'impact du bruit de fond.

Evaluation de la qualité audio

Traditionnellement, l'évaluation de la qualité d'un son ou d'un discours implique qu'un groupe d'experts écoute les enregistrements et les note sur une échelle de 1 à 5, 1 représentant "mauvais" et 5 "excellent". La note moyenne d'opinion (MOS) est ensuite calculée comme la moyenne des notes fournies par les différents experts. Cependant, cette méthode est coûteuse et longue à mettre en place. Elle nécessite la sélection et la coordination d'un panel d'experts hautement qualifiés qui doivent être disponibles pour plusieurs sessions afin d'évaluer différentes itérations de prototypes ou versions d'algorithmes pour déterminer la solution optimale et la comparer aux produits existants.

Une évaluation de la qualité audio après la suppression du bruit de fond.

Pour rationaliser ce processus et le rendre plus accessible, plusieurs modèles ont été développés pour automatiser les évaluations MOS des experts. L'un de ces modèles, appelé 3QUEST par HEAD Acoustics, se concentre sur l'évaluation de la qualité de la parole dans les environnements bruyants. La configuration consiste à enregistrer l'appareil testé tout en reproduisant la parole à travers un simulateur de tête et de torse (HATS) ou un simulateur de bouche. En outre, une simulation de bruit est diffusée par quatre à huit haut-parleurs placés stratégiquement autour de l'appareil. Le scénario de simulation de bruit choisi dépend de la catégorie de produit testée, par exemple le bruit d'un centre d'appel pour évaluer un casque ou le bruit du moteur d'une voiture pour évaluer le microphone mains libres d'une voiture.

Une configuration de mesure pour 3Quest. — Figure 1 : Dispositif de mesure pour 3Quest.

L'audio enregistré est ensuite évalué à l'aide du logiciel 3QUEST de HEAD Acoustic, qui le compare au fichier vocal original propre. Ce logiciel évalue diverses caractéristiques du bruit et de la parole, notamment les niveaux, les distorsions, etc. Il génère trois scores : N-MOS pour la qualité du bruit, S-MOS pour la qualité de la parole et G-MOS comme score global. Comme nous l'avons déjà mentionné, nous nous attendons à une meilleure qualité de la parole lorsque le bruit de fond est moins important. Par conséquent, le S-MOS incorpore le N-MOS comme l'une de ses variables d'entrée. Le G-MOS est une combinaison pondérée du N-MOS et du S-MOS. Certains services et options de suppression du bruit de fond entraînent une dégradation significative de la qualité globale de la parole, ce qui se traduit par un score G-MOS inférieur. Cependant, grâce aux progrès technologiques, tels que les microphones MEMS directionnels de Soundskrit, les nouveaux produits seront en mesure de supprimer les bruits de fond sans affecter de manière significative la qualité sonore globale.

Avec un outil comme 3QUEST, il devient plus facile de comparer les performances de différentes solutions audio pour la parole dans des environnements bruyants. De plus, lorsqu'il est utilisé correctement, cet outil permet d'effectuer des comparaisons entre laboratoires, ce qui améliore le processus d'évaluation.

En conclusion, les entreprises s'appuient sur des outils sophistiqués tels que le logiciel 3Quest pour évaluer la qualité de la parole dans les environnements bruyants et mesurer les performances des microphones. Ce test complet fournit des informations précieuses sur trois facteurs clés : N-MOS, S-MOS et G-MOS, ce qui permet de développer des microphones optimaux pour les environnements bruyants. Grâce aux progrès réalisés dans la suppression des bruits de fond, la qualité du son n'a plus à souffrir. Pour plus de détails sur l'audio, veuillez consulter notre page à l'adresse suivante AudioHub.

Références :

HEAD Acoustic 3QUEST : https://cdn.head-acoustics.com/fileadmin/data/global/Application-Notes/Telecom/3QUEST-Application-Note.pdf