Enregistrement sonore - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

L'enregistrement sonore est l'opération qui consiste à garder la trace d'un son de façon durable sur un support analogique comme la bande magnétique ou le disque vinyle, ou sur un support numérique comme le disque compact, en vue de pouvoir le diffuser au plus proche de l'identique et éventuellement le modifier (le traiter). Elle est effectuée grâce à une chaîne de transducteurs : un dispositif de capture des ondes sonores (microphone), un dispositif d'amplification (préamplificateur) et un dispositif d'écriture sur le support. On qualifie également d'enregistrement sonore le support enregistré.

La chaîne de reproduction sonore

Coupe d'un phonographe
D : embouchure du pavillon
E : membrane mobile
F : amortisseurs
G : stylet graveur et lecteur
C : Cylindre

Depuis les origines de l'enregistrement sonore, seules trois techniques ont été employées : l'enregistrement mécanique, l'enregistrement électromagnétique et l'enregistrement numérique.

L'enregistrement mécanique a été la première forme d'enregistrement sonore et aussi la plus simple, inventée par Thomas Edison et portant le nom de phonographe : une membrane de mica solidaire d'un stylet est mue par les ondes sonores et grave directement ces vibrations sur un cylindre en mouvement rotatif, laissant un sillon s'enroulant sur le pourtour du cylindre. C'est avant la lettre l'exemple type de l'enregistrement analogique. La particularité du phonographe est qu'il est réversible : le même mécanisme sert à la fois à enregistrer et à reproduire les sons. Une nouvelle évolution, toujours basée sur un enregistrement direct mécanique aboutira au disque et au gramophone.

L'arrivée de l'électricité et de la maîtrise des champs électromagnétiques va permettre l'enregistrement électromagnétique d'abord sur fil métallique puis sur bande, impliquant l'invention du microphone et la possibilité qui en découle de transformer le son en signal électrique et de pouvoir le transporter dans un fil. La porte est désormais ouverte pour les enregistrements multipistes (les signaux simultanés de plusieurs microphones enregistrés sur plusieurs pistes parallèles de la même bande magnétique), la stéréophonie, le mixage et le montage. L'enregistrement n'est plus direct mais différé. Le support final de diffusion peut être la bande magnétique, le disque microsillon ou la cassette. La large diffusion de cette technologie marquera à partir des années 1950 l'essor commercial de la musique enregistrée avec une énorme production planétaire de 33 tours, de 45 tours et de K7.

Les années 1970 seront les années de gloire de la K7 qui verra la qualité de son support magnétique évoluer, depuis l'oxyde ferromagnétique en passant par le bi-oxyde de chrome, le ferro-chrome, le cobalt, jusqu'au métal pur et d'innombrables brevets (Super Avilyn, Epitaxial, Phase Precision…), aboutissant à un support de grande qualité musicale. À noter que le succès de la cassette est en partie dû aussi à l'apport considérable des circuits de réduction de bruit Dolby qui ont, dès son invention, équipé tous les magnétophones et lecteurs de K7. Les magnétocassettes les plus performants de la dernière génération disposaient ainsi des Dolby A, Dolby B, Dolby C, Dolby S, le Dolby HX-Pro ainsi que de circuits supplémentaires de traitement spécifique des aigus (dont la restitution a toujours constitué le point faible de la K7).

C'est au milieu des années 1970 que se popularise peu à peu l'enregistrement numérique. Celui-ci ne sera d'abord utilisé que par les studios professionnels et le support final continuera pendant un temps d'être le microsillon, en parallèle à l'apparition progressive du CD (inventé en 1979, produit à partir de 1982). La fin des années 1990 marquera l'explosion des home studio, permettant à quiconque, avec un investissement modéré, de réaliser des enregistrements de qualité : graveurs de CD, enregistreurs DAT, enregistreurs de minidisque numérique, enregistrement direct-to-disc (direct sur disque dur) avec un ordinateur personnel.

La prise de son

En l'état actuel de la technologie une prise de son professionnelle requiert au minimum un couple de microphones (pour la prise de son stéréophonique) reliés à une table de mixage ou un préamplificateur relié à son tour à un enregistreur qui peut être soit un magnétophone numérique DAT, ADAT ou MD, soit un ordinateur avec la fonction direct-to-disc (direct sur disque dur).

Jusqu'à l'invention de la musique électronique, il n'existait qu'une seule manière de capturer des sons, c'était en utilisant un microphone. Cette méthode d'enregistrement sonore reste absolument inchangée depuis ses origines, même si les supports d'enregistrements se sont multipliés et ont évolué. Elle est encore aujourd'hui la seule méthode possible pour enregistrer les voix, les bruits, les sons naturels et les instruments de musique acoustique, bref toute onde sonore véhiculée dans l'air.

C'est dire combien la qualité du ou des microphones revêt une importance primordiale. Dans l'équipement de studio professionnel de prise de son, il est un des élément les plus importants et c'est souvent un de ceux qui coûtent le plus cher. Les ingénieurs du son le savent : un signal parfait dès le départ garantit un enregistrement de qualité.

Dans la prise de son professionnelle, la qualité des microphones ne suffit pas. Le preneur de son doit également trouver le bon placement des micros, et certaines conditions d'enregistrement sont souvent sources de véritables casse-tête. Si la prise de son monophonique peut sembler assez aisée à mettre en œuvre, il n'en est pas de même de la prise de son stéréophonique dite "naturelle"; c’est-à-dire celle qui utilise une base stéréophonique (2 microphones disposés en couple) principale et plusieurs micros d'appoint dont le but est de préciser certaines sources. Une des principale difficulté réside alors dans le placement optimal du couple principal, car toute erreur ne pourra plus être corrigée lors de la phase de post-production. Cette difficulté est décuplée lorsque l'on multiplie les bases stéréophoniques dans le but de simuler des effets de plans sonores. Par ailleurs, dès lors qu'il s'agit de multiplier les sources principales (prise de son de proximité), d'autres phénomènes interviennent. En effet, plus on augmente le nombre de microphones, et plus se posent des problèmes de rotation de phase lors de leur mélange. D'autre part le fait de rapprocher une source d'un capteur modifie sa courbe de réponse en fréquence : c'est ce qu'on appelle l'effet de proximité qui tend à amplifier les basses fréquences; effet d'autant plus marqué que le microphone est directif. Lorsqu'il s'agit par exemple d'enregistrer un orchestre, le placement des micros et ensuite les dosages au niveau de la table de mixage peuvent requérir des heures de préparation et d'essais dont on ne peut pas faire l'économie même lors d'un enregistrement multipiste permettant d'enregistrer chaque instrument individuellement et de réaliser le mixage ultérieurement. On parle alors de post-mixage de montage ou de post-production.

La prise de son à l'ère de l'électronique

Depuis l'invention de la musique électronique, l'enregistrement sonore est entré dans une ère nouvelle car les générateurs électroacoustiques, qu'il s'agisse de synthétiseurs, d'échantillonneurs ou de cartes son d'ordinateur produisent directement le son sous forme de signal électrique, lequel peut directement être enregistré en s'affranchissant d'une étape, celle du microphone. Il faut cependant souligner que les sons produits électroniquement ne sont pas des sons naturels et le champ d'application est surtout orienté vers la production de musique actuelle, bruitages, effets sonore et dans une moindre mesure de musique de film.

À l'ère de l'électronique, l'enregistrement sonore peut être réalisé directement à partir du signal électrique. Or certaines sources ont un signal avec des caractéristiques bien particulières. Comme la radio FM, dans un enregistrement sonore de radio FM, il y a très souvent un affaiblissement très important à partir de 15 kHz (fréquence limite) et un pic à 19 kHz (stéréo). C'est pour cela qu'il est recommandé que l'échantillonnage soit de 32 000 Hz (2×16 000 Hz).

Supports de l'enregistrement

Supports analogiques

Enregistrement magnétique
- Fil magnétique
- Bande magnétique
  - Bande libre
  - Cartouche (Cart machines)
  - Cartouche 8 pistes
  - Cassette audio compacte ou minicassette
  - Microcassette
Enregistrement optique
- cinématographe
Enregistrement mécanique (phonographique)
- Cylindre
- Disque
  - Disque 78 tours
  - Disque microsillon

Supports numériques

Enregistrement magnétique
- Digital Audio Tape (DAT)
- Digital Compact Cassette (DCC)
Enregistrement mécanique
- Prototype disque numérique de Thomson
Enregistrement optique
- Disque compact (CD)
- Minidisc (MD)
- Disque compact super audio (SACD)
- Digital versatile disc (DVD)
- Disque numérique polyvalent de haute densité (HD-DVD)
- Disque Blu-ray (Blu-ray)

(liste à compléter)

Caractéristiques techniques de l'enregistrement

Dans le cas d'un enregistrement analogique comme dans celui d'un enregistrement numérique, transformer une onde sonore en variations de tension ou en données informatiques, introduit des limitations dues aux moyens d'enregistrement.

Caractéristiques des systèmes d'enregistrement analogiques et numériques

Dynamique

La " dynamique " ou " portée dynamique " d'un système d'enregistrement est le terme utilisé pour désigner la différence qui existe entre les amplitudes minimum et maximum que chaque maillon du système peut reproduire ou enregistrer. Cela commence généralement par le microphone, qui convertit le son en signal électrique, pour aller jusqu'au support de l'enregistrement, disque, bande magnétique ordinateur... Rappelez-vous que les décibels expriment un rapport. Dans le cas de la dynamique, la valeur donnée correspond au niveau maximum possible sans distortion par rapport à une référence qui varie suivant le type d'appareil. Dans le cas du microphone, cette référence correspond au niveau de la pression atmosphérique standard alors que pour les appareils électriques c'est souvent le niveau de bruit de fond qui est pris comme référence. Dans le cas du numérique, la dynamique correspond à une valeur théorique donnée par la formule 20 x Log (2^n) où n correspond à la quantification du signal. En pratique cette valeur est minorée par divers phénomènes (bruit de quantification, précision sur très bas niveaux...etc). Voici quelques exemples :

Disque vinyle : 65 dB
Bande magnétique : 55 dB
Acquisition 16 bits (CD) : 96 dB (théorique)
Acquisition 8 bits : 48 dB (théorique)

Un orchestre symphonique peut jouer des sons sur une gamme allant jusqu' à 110 dB. Pour cette raison, on utilise des systèmes qui compriment la dynamique, le compresseur audio afin d'éviter que les signaux forts ne soient écrêtés et les faibles inaudibles. Cette limitation/compression peut être effectuée à la prise de son, lors du mixage, lors du mastering ou lors de chacune de ces 3 étapes. Sur un magnétophone professionnel 1/2 pouce tournant en 76 cm/s et équipé de Dolby SR, on peut obtenir un rapport S/B dépassant 100 dB !

Bruit de fond

En plus d'être moins performants que l'oreille humaine, les systèmes d'enregistrement ont aussi le défaut d'émettre leur propre bruit. Cela peut être le frottement de la tête de lecture sur le disque vinyle ou le ronflement de l'amplificateur. Ce bruit, généralement assez faible limite la dynamique de l'appareil vers le bas. Il est perçu la plupart du temps comme un ronflement ou un souffle qui s'entend bien avec un casque de bonne qualité. Ce souffle ressemble à un bruit de chute d'eau car il a un spectre qui couvre toute la bande audio. C’est-à-dire qu'il contient toutes les fréquences perceptibles par l'oreille humaine (de 20 Hz à 20000 Hz)

Distorsion

Tous les appareils et systèmes qui concourent à enregistrer un signal se comportent comme des filtres ou des générateurs et de fait introduisent des distorsions du signal. Bien entendu, la chaîne de reproduction ne déroge pas à cette règle et amène elle aussi son lot de distorsions et bruits, depuis les têtes de lectures, les préamplis, les amplis jusqu'aux haut-parleurs en passant par les câbles et connecteurs.

Ces filtres ont un effet important sur la phase et sur la réponse en fréquence du signal dont ils modifient le spectre. Ces altérations dépendent de la fréquence. Mais les appareils de reproduction peuvent aussi se comporter en véritables générateurs et ajouter des fréquences qui n'existent pas dans le signal d'origine; c'est ce qui se passe par exemple dans le cas de la distortion harmonique où l'appareil superpose au signal d'origine des sous multiples de celui-ci (les harmoniques).

En audio, les principaux types de distortions sont la distortion harmonique, la distortion de croisement, la distortion d'intermodulation transitoire, et la petite dernière: la distortion thermique.

Caractéristiques spécifiques aux systèmes d'enregistrement numérique

Bruit de quantification

La quantification nécessaire à l'enregistrement numérique introduit du bruit. Elle consiste à transformer chaque valeur instantanée du signal échantillonné en un nombre compris dans une échelle de valeurs espacées à intervalles réguliers. La plupart du temps, il s'agira d'une échelle entière, et une valeur correspondra à un niveau d'amplitude, ces niveaux étant linéairement répartis. Toute représentation d'une grandeur physique sous forme d'un nombre entier ne sera toujours qu'une approximation de celle-ci, et la différence entre la valeur quantifiée et la valeur réelle représente le bruit ajouté.

La quantité de bruit de fond ajouté est intimement liée à la profondeur de représentation choisie, ou encore la quantité d'information qu'on a choisi d'utiliser pour représenter un échantillon. Le calcul se fait selon un rapport signal/bruit, exprimé en dB, quand le signal utilise toute l'échelle d'amplitude dont il dispose. Les profondeurs d'enregistrement numérique sont souvent exprimées en bits, ce qui correspond au nombre de chiffres binaires qu'on utilisera pour représenter une valeur. Les plus courantes sont :

8 bits (enregistrement vocal, peu utilisé de nos jours, était l'apanage des premières cartes son)
16 bits (le plus universel : CD Audio)
24 bits (utilisé par les professionnels et audiophiles, car il autorise plus de souplesse de traitement sonore en limitant la perte de qualité, tout en offrant une grande dynamique)
32 bits (rarement utilisé)

Il est également courant d'enregistrer dans un format en virgule flottante, ce qui attribue plus de précision aux valeurs faibles et facilite les calculs.

Un enregistrement en 16 bits aura une gamme de valeurs large de 65 536 unités et un palier constant de 1. Le rapport signal/bruit peut être déduit : $20 \log_{10} \frac {65536} {1} \simeq 96 dB$

Il est recommandé de réduire l'impact de la quantification en ajoutant artificiellement du bruit au signal quantifié, afin d'éliminer les distorsions au prix d'un léger bruit de fond supplémentaire, mais plus "naturel". (voir dithering, noise shaping)

Le bruit se fait particulièrement entendre sur un CD dans les passages de faible niveau. En effet, la quantification étant constante et linéaire, les faibles niveaux acoustiques sont découpés de façon grossière, les valeurs discrètes pour les décrires sont moins nombreuses. Lorsqu'on dispose de 16 bits pour décrire une échantillon, cela ne vaut que sur la totalité de la plage dynamique qui est au maximum de 96 dB. Cependant à un faible niveau de l'ordre de 20 dB, seuls les 3 ou 4 premiers bits sont significatifs, augmentant d'autant l'erreur de quantification et par conséquent le bruit. Ce sont les limites connues et difficiles à corriger des CD. Seule une plage de valeurs de quantification plus grande (20, 24 ou 32 bits) permet de s'affranchir de ce défaut, particulièrement audible dans la musique classique.

Bruit d'échantillonnage

Voir échantillonnage pour des informations plus détaillées sur les problèmes posés.

L'échantillonnage consiste à découper l'information sonore qui arrive sous forme électrique (donc analogique) à intervalles de temps réguliers. La vitesse à laquelle la carte son enregistre des points est la fréquence ou cadence d'échantillonnage. La norme des CD Audio fixe la fréquence d'échantillonnage à 44100 Hz, ce qui signifie que 44100 valeurs sont capturées chaque seconde. Si on ne prend pas de précaution avant l'échantillonnage, il se peut qu'on introduise un fort bruit de fond voire une dénaturation du signal, car les fréquences plus élevées que la moitié de la fréquence d'échantillonnage ne seront pas restituées mais, et c'est plus gênant, vont se répercuter sur les fréquences inférieures.

Il faut faire en sorte que toutes les fréquences supérieures à la moitié de la fréquence d'acquisition soient éliminées, faute de quoi la restitution du son sera polluée par des sons parasites (du bruit et des interférences entre la fréquence d'échantillonnage et la fréquence du son). Dans le cas de la cadence des CD-Audio de 44,1 kHz, il ne faut pas de sons de fréquence supérieure à 22 kHz (d'après le théorème de Shannon).

Pour atténuer fortement les fréquences gênantes, on utilise des filtres. " Filtre " est un terme assez large qui désigne un appareil capable de retenir ou de filtrer une partie d'un son. On utilise par exemple un filtre passe-bas pour atténuer les hautes fréquences, inaudibles mais gênantes pour l'acquisition.

Compression de données

De plus en plus, des algorithmes de compression de données comme le MP3 ou bien Ogg Vorbis sont utilisés pour gagner une précieuse place sur nos supports d'enregistrement. Ces algorithmes sont dit " destructifs " car ils détruisent une partie du signal sonore pour réduire (autant que le débit choisi l'impose) la taille du fichier son final. Les programmes de compressions utilisent un modèle de l'oreille humaine afin d'éliminer les informations inutiles. Par exemple, si deux fréquences sont proches l'une de l'autre, la plus faible pourra être éliminée si elle est considérée comme masquée par la plus forte. Pour cette raison, on trouve sur internet un certain nombre de tests et de recommandations sur la manière d'utiliser ces logiciels pour éviter une dégradation audible des enregistrements. Il ressort de ceux que l'auteur a consulté que de nombreux encodeurs MP3 filtrent systématiquement les signaux supérieurs à 16 KHz et se limitent à un " bit rate " (traduit par " débit ") de 128Kps. Ces chiffres s'avèrent largement insuffisants dans de nombreux cas si l'on souhaite conserver une qualité d'écoute proche de celle obtenue avec les CD. A l'opposé les systèmes de compression de données comme gzip, bzip2, lha ou zip n'altèrent pas les données mais ont des taux de compression plus faibles. Il faut de plus, décompresser tout le fichier avant de l'écouter, ce qui s'accommode assez mal des baladeurs et autres lecteurs. Il existe tout de même des formats de compression audio non destructifs comme le format ape ou flac, qui peuvent s'écouter de la même manière que ceux au format MP3 ou ogg, mais les taux de compression sont bien sûr plus faibles (divisé par 2 au lieu de 10 en moyenne), et peu de lecteurs audio les supportent.

Alors que les supports de stockage deviennent de plus en plus abordables et offrent des espaces de stockage quasiment illimités, on peut légitimement se demander si les technologies de compression sonore ont encore de l'avenir. Pour les prochaines années, la réponse est clairement oui, et pour (au moins) deux raisons essentielles :

La compression sonore a amené de nouveaux usages avec elle : plutôt que de stocker 200 albums sur un support, ce qui était énorme même compressé aux débuts de cette technologie, on peut maintenant en stocker 2 000, et il devient alors intéressant de les référencer dans une base de données pour faciliter la recherche de morceaux et les diffusions thématiques.
la compression de données n'apporte pas uniquement un gain d'espace de stockage, elle permet aussi de réduire les flux de données, et ainsi contribuer à réduire les coûts des composants pour la lecture (dans les baladeurs numériques par exemple) et les temps de transfert quels qu'ils soient.