Le son binaural, c’est quoi ?

Depuis deux ans, on entend par­ler absol­u­ment partout du son bin­au­r­al. La pre­mière fois que j’ai réelle­ment décou­vert ce que cela sig­nifi­ait, c’était à l’occasion d’Utopie Sonore 2016, où un groupe de participant·e·s avait pu réalis­er quelques expéri­men­ta­tions.

Plus récem­ment, c’est à Longueur d’ondes 2019 que j’ai assisté à une démon­stra­tion de mix­age pour l’écoute bin­au­rale.

Le monde de la radio et du son en général est en véri­ta­ble effer­ves­cence au sujet de ce qui est annon­cé par beau­coup comme une véri­ta­ble révo­lu­tion… On peut écouter des émis­sions à ce sujet, et même en écouter sur le site de Radio France dédié au son 3D

Mais qu’est-ce que c’est, le son bin­au­r­al ?

[Le son bin­au­r­al] est une tech­nique qui restitue l’écoute naturelle, en trois dimen­sions.

Son bin­au­r­al : la 3D sonore — Le numérique et nous, Cather­ine Petil­lon, France Cul­ture, mai 2017

Cette pré­pa­ra­tion spé­ci­fique du son per­met de ressen­tir une impres­sion d’immersion très réal­iste. On se retrou­ve au cœur d’un univers sonore, bien plus qu’avec la stéréo clas­sique.

Pour com­pren­dre com­ment ça marche, il faut revenir un tout petit peu en arrière, et expli­quer com­ment notre sys­tème audi­tif fonc­tionne pour localis­er les sources des sons.

On écoute avec deux oreilles

Je ne reviendrai pas ici sur ce qu’est un son, ni sur la ques­tion du spec­tre audi­tif. Si ces ques­tions vous intéressent, je vous invite à con­sul­ter le début de l’article que j’avais écrit sur la musique et les math­é­ma­tiques.

« Le son que je viens d’entendre a-t-il été pro­duit devant moi, au dessus, sur la gauche, der­rière ? À 2 mètres, à 10 mètres ? » Les humains, comme beau­coup d’autres ani­maux, sont capa­bles de localis­er très pré­cisé­ment une source sonore dans l’espace envi­ron­nant.

Pour cela, on utilise prin­ci­pale­ment nos deux oreilles. Une à gauche, une à droite. Comme elles sont placées de chaque côté de notre tête, et comme le son avance dans l’air ambiant à une vitesse de 340 mètres par sec­onde, il y a donc quelques mil­lisec­on­des de dif­férence dans la per­cep­tion du son par les deux oreilles. En ajoutant à cela l’atténuation naturelle de l’intensité due à la dis­tance, on a donc une légère dif­férence de niveau sonore dans la per­cep­tion du son entre les deux oreilles. Cela per­met de décel­er effi­cace­ment si un son dans le plan hor­i­zon­tal.

La local­i­sa­tion dans le plan ver­ti­cal du son est quant à elle per­mise par la forme par­ti­c­ulière de nos oreilles, nos épaules, notre tête, etc. En effet, ces struc­tures ont ten­dance à réfléchir ou à fil­tr­er cer­taines fréquences, ce qui entraîne une mod­i­fi­ca­tion du spec­tre fréquen­tiel perçu. Cer­taines fréquences sont atténuées, et d’autres ampli­fiées suiv­ant la direc­tion d’où vient le son.

La per­cep­tion de la dis­tance est notam­ment per­mise grâce aux dif­férences per­cep­ti­bles entre le son qui arrive directe­ment à nos oreilles, et celui qui arrive après avoir été réver­béré par l’environnement.

Enfin, puisque ces dif­férentes per­cep­tions sont par­fois déli­cates, nous avons égale­ment ten­dance à réalis­er des micro-mou­ve­ments de la tête, non con­trôlés, qui aideront le cerveau à affin­er sa per­cep­tion de la local­i­sa­tion de la source, en util­isant plusieurs esti­ma­tions suc­ces­sives à des ori­en­ta­tions dif­férentes.

Si vous voulez en lire plus sur ces ques­tions, je vous invite à par­courir l’article sur le site cochlea, que je trou­ve très péd­a­gogique.

Simuler un son naturel

Quand on utilise un dis­posi­tif d’enregistrement et de resti­tu­tion du son, on cherche donc à simuler un son naturel, pour per­me­t­tre à l’auditeur de le percevoir local­isé dans l’espace ambiant. À cha­cune des étapes de l’enregistrement, du mix­age, et de la dif­fu­sion, on doit donc réfléchir à la manière de spa­tialis­er le son.

Multi-sources

La manière la plus sim­ple de spa­tialis­er le son, mais qui est peu util­isée, con­siste à plac­er une enceinte à l’endroit de cha­cun des sons que l’on veut simuler. C’est ce qui est fait au théâtre par exem­ple, où l’on pour­ra plac­er une enceinte dans le lan­dau pour faire enten­dre un bébé qui pleure. Les spec­ta­teurs enten­dront le son venir exacte­ment du bon endroit.

Évidem­ment, cette tech­nique n’est pos­si­ble que si l’on peut posi­tion­ner une enceinte pour cha­cune des sources sonores que l’on veut simuler. C’est assez utopique, et impos­si­ble pour un dis­posi­tif d’écoute per­son­nel.

La tech­nique la plus courante est donc la dif­fu­sion du son en stéréo, voire en 5.1. Je ne prendrai pas le temps de détailler les sons 5.1 et ses alter­na­tives pour le ciné­ma, mais on peut les enten­dre comme une exten­sion du son stéréo.

Le son stéréo

Studio de montage stéréo
Stu­dio de mon­tage stéréo

Le son stéréo fonc­tionne très bien avec deux enceintes, placées de part et d’autre de l’auditeur, à dis­tance égale, générale­ment en for­mant un tri­an­gle équilatéral à 60°.

En mix­ant le son pour la stéréo, on utilise prin­ci­pale­ment les écarts d’intensité entre les deux canaux pour simuler un son gauche/droite. Par­fois, on ajoute à cela un léger délai entre les deux sig­naux, pour aug­menter encore l’impression de spa­tial­i­sa­tion. Mais on va rarement au delà, car la per­cep­tion réelle de l’auditeur dépend beau­coup de la posi­tion de ses enceintes.

Pour enreg­istr­er du son pour la stéréo, on pour­ra par exem­ple utilis­er un cou­ple XY, ou encore un cou­ple ORTF, suiv­ant les besoins et envies.

Il est intéres­sant de not­er que l’écoute au casque d’un son mixé pour la stéréo sem­blera générale­ment moins bien spa­tial­isé, parce que les sources sonores seront col­lées aux oreilles, et non plus éloignées sig­ni­fica­tive­ment de l’auditeur. En dif­fu­sant un son unique­ment dans l’enceinte droite, on a tou­jours une écoute stéréo, l’auditeur perçoit l’enceinte à 45°. À l’inverse, en ne dif­fu­sant un son que dans l’oreillette droite d’un casque, on pro­posera à l’auditeur un mix qui n’a rien de naturel (on n’entend jamais un son que d’une seule oreille). De plus, avec un casque, impos­si­ble de prof­iter des micro-mou­ve­ments de la tête.

Le son binaural

Le principe du son bin­au­r­al est de con­cevoir un son pour une écoute au casque, la plus fidèle pos­si­ble à ce que l’on pour­rait percevoir en envi­ron­nement réel : délai entre les deux oreilles, dif­férence d’intensité, mod­i­fi­ca­tion du spec­tre de fréquences, afin de simuler au mieux les choses.

Tête de man­nequin et micros-oreilles.

Il existe dif­férentes tech­niques pour pro­duire un tel son : soit en cap­ta­tion bin­au­rale, en util­isant deux micros placés au niveau des oreilles de l’opérateur ou d’un man­nequin, soit en util­isant des plu­g­ins de spa­tial­i­sa­tion de son dédiés, où l’on place la source dans l’espace ambiant, et où l’on simule un son bin­au­r­al.

Les limitations du son binaural

Si sur le papi­er cette approche sem­ble très promet­teuse, il est tout de même impor­tant de rap­pel­er quelques lim­i­ta­tions, qui font que cette tech­nique n’est prob­a­ble­ment pas aus­si for­mi­da­ble que ses défenseurs veu­lent le faire enten­dre.

Tout d’abord, notre écoute s’appuie beau­coup sur les micro-mou­ve­ments de la tête pour affin­er la local­i­sa­tion des sources de son. La seule manière de simuler cela dans le cadre d’une dif­fu­sion bin­au­rale est de réalis­er un suivi en temps réel de la tête de l’auditeur, et d’ajuster le mix qui arrivera à ses oreilles en temps réel. Cela n’est pos­si­ble qu’avec un son réal­isé virtuelle­ment avec des plu­g­ins de spa­tial­i­sa­tion, et ne sera pas pos­si­ble avec un son naturel enreg­istré en bin­au­r­al.

D’autre part, une grande par­tie de la per­cep­tion spa­tiale dépend de la forme pré­cise de nos oreilles et de notre anatomie en général (forme de la tête, forme des épaules, etc.). D’une per­son­ne à l’autre, le fil­tre fréquen­tiel que subit le son peut vari­er de manière sig­ni­fica­tive. Ain­si, si j’enregistre en bin­au­r­al depuis mes oreilles, et que vous écoutez ensuite l’enregistrement, vous pour­riez percevoir un son au dessus de vous, alors que je l’aurais enreg­istré face à moi. La seule manière pour con­tourn­er cette lim­i­ta­tion est de réalis­er un mix dédié à chaque audi­teur, ou à chaque famille d’auditeurs. C’est prob­a­ble­ment un chemin qui suiv­ra l’industrie du son.

En atten­dant, on a donc à notre dis­po­si­tion des sons bin­au­raux mixés pour qu’ils sat­is­fassent au plus grand nom­bre. Si vous êtes proches des pro­priétés mor­phologiques de la moyenne, vous aurez alors une per­cep­tion très fine de la spa­tial­i­sa­tion. À l’inverse, si vous en êtes éloignés, vous percevrez aus­si une spa­tial­i­sa­tion, mais prob­a­ble­ment inco­hérente avec celle imag­inée par le pro­duc­teur…

Conclusion

Ce que je regrette beau­coup dans la com­mu­ni­ca­tion à out­rance que l’on voit ces dernières années sur les tech­nolo­gies bin­au­rales, c’est que les défenseurs de ces tech­niques se pla­cent en évangélisa­teurs, présen­tant la tech­nique comme une révo­lu­tion for­mi­da­ble, qui per­met des mer­veilles.

Même si cette tech­nique apporte des sen­sa­tions vrai­ment intéres­santes pour l’auditeur, je pense qu’il est impor­tant de rel­a­tivis­er, d’une part sur les per­for­mances de sim­u­la­tion réal­iste de l’approche, comme nous l’avons vu ci-dessus, mais aus­si sur le fait que cette approche est fréquem­ment exploitée par les gens qui réalisent un mix, même pour la stéréo. Ce n’est donc pas une révo­lu­tion, mais plus une évo­lu­tion des pra­tiques…