L'enregistrement sonore est l'opération qui consiste à garder la trace d'un son de façon durable sur un support analogique comme la bande magnétique ou le disque vinyle, ou sur un support numérique comme le disque compact, en vue de pouvoir le diffuser au plus proche de l'identique et éventuellement le modifier (le traiter). Elle est effectuée grâce à une chaîne (Le mot chaîne peut avoir plusieurs significations :) de transducteurs : un dispositif de capture (Une capture, dans le domaine de l'astronautique, est un processus par lequel un objet céleste, qui...) des ondes sonores (microphone), un dispositif d'amplification (On parle d'amplificateur de force pour tout une palette de systèmes qui amplifient les...) (préamplificateur) et un dispositif d'écriture sur le support. On qualifie également d'enregistrement sonore le support enregistré.
Depuis les origines de l'enregistrement sonore, seules trois techniques ont été employées : l'enregistrement mécanique (Dans le langage courant, la mécanique est le domaine des machines, moteurs, véhicules, organes...), l'enregistrement électromagnétique et l'enregistrement numérique (Une information numérique (en anglais « digital ») est une information...).
L'enregistrement mécanique a été la première forme d'enregistrement sonore et aussi la plus simple, inventée par Thomas Edison (Thomas Edison (Thomas Alva Edison) (11 février 1847 à Milan Ohio - 18 octobre 1931 à...) et portant le nom de phonographe : une membrane de mica solidaire d'un stylet est mue par les ondes sonores et grave directement ces vibrations sur un cylindre en mouvement rotatif, laissant un sillon s'enroulant sur le pourtour du cylindre. C'est avant la lettre l'exemple type de l'enregistrement analogique (Le concept d'analogique est utilisé par opposition à celui de numérique.). La particularité du phonographe est qu'il est réversible : le même mécanisme sert à la fois à enregistrer et à reproduire les sons. Une nouvelle évolution, toujours basée sur un enregistrement direct mécanique aboutira au disque (Le mot disque est employé, aussi bien en géométrie que dans la vie courante, pour désigner une...) et au gramophone.
L'arrivée de l'électricité (L’électricité est un phénomène physique dû aux différentes charges électriques de la...) et de la maîtrise (La maîtrise est un grade ou un diplôme universitaire correspondant au grade ou titre de...) des champs électromagnétiques va permettre l'enregistrement électromagnétique d'abord sur fil métallique puis sur bande, impliquant l'invention du microphone (Un microphone (ou plus simplement micro par apocope) est un dispositif de conversion des ondes...) et la possibilité qui en découle de transformer le son en signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe...) électrique et de pouvoir le transporter dans un fil. La porte est désormais ouverte pour les enregistrements multipistes (les signaux simultanés de plusieurs microphones enregistrés sur plusieurs pistes parallèles de la même bande magnétique), la stéréophonie, le mixage et le montage. L'enregistrement n'est plus direct mais différé. Le support final de diffusion (Dans le langage courant, le terme diffusion fait référence à une notion de...) peut être la bande magnétique (La bande magnétique (ou ruban magnétique) est un support permettant l'enregistrement...), le disque microsillon ou la cassette. La large diffusion de cette technologie (Le mot technologie possède deux acceptions de fait :) marquera à partir des années 1950 l'essor commercial (Un commercial (une commerciale) est une personne dont le métier est lié à la vente.) de la musique enregistrée avec une énorme production planétaire (Un planétaire désigne un ensemble mécanique mobile, figurant le système solaire...) de 33 tours, de 45 tours et de K7.
Les années 1970 seront les années de gloire de la K7 qui verra la qualité de son support magnétique évoluer, depuis l'oxyde (Un oxyde est un composé de l'oxygène avec un élément moins...) ferromagnétique en passant par le bi-oxyde de chrome (Le chrome est un élément chimique de symbole Cr et de numéro atomique 24.), le ferro-chrome, le cobalt (Le Cobalt est un élément chimique, de symbole Co et de numéro atomique 27 et de...), jusqu'au métal (Un métal est un élément chimique qui peut perdre des électrons pour former des...) pur et d'innombrables brevets (Super Avilyn, Epitaxial, Phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et...) Precision…), aboutissant à un support de grande qualité musicale. À noter que le succès de la cassette est en partie dû aussi à l'apport considérable des circuits de réduction de bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son....) Dolby qui ont, dès son invention, équipé tous les magnétophones et lecteurs de K7. Les magnétocassettes les plus performants de la dernière génération disposaient ainsi des Dolby A, Dolby B, Dolby C, Dolby S, le Dolby HX-Pro ainsi que de circuits supplémentaires de traitement spécifique des aigus (dont la restitution a toujours constitué le point (Graphie) faible de la K7).
C'est au milieu des années 1970 que se popularise peu à peu l'enregistrement numérique. Celui-ci ne sera d'abord utilisé que par les studios professionnels et le support final continuera pendant un temps (Le temps est un concept développé par l'être humain pour appréhender le...) d'être le microsillon, en parallèle à l'apparition progressive du CD (inventé en 1979, produit à partir de 1982). La fin des années 1990 marquera l'explosion (Une explosion est la transformation rapide d'une matière en une autre matière ayant un...) des home studio, permettant à quiconque, avec un investissement modéré, de réaliser des enregistrements de qualité : graveurs de CD, enregistreurs DAT, enregistreurs de minidisque numérique, enregistrement direct-to-disc (direct sur disque dur) avec un ordinateur personnel (Un ordinateur personnel, encore appelé micro-ordinateur ou ordinateur individuel, est un...).
En l'état actuel de la technologie une prise de son professionnelle requiert au minimum un couple de microphones (pour la prise de son stéréophonique) reliés à une table de mixage (Une table de mixage, ou console de mixage, est un appareil électronique permettant de combiner (ou...) ou un préamplificateur relié à son tour à un enregistreur qui peut être soit un magnétophone numérique DAT, ADAT ou MD, soit un ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant...) avec la fonction direct-to-disc (direct sur disque dur).
Jusqu'à l'invention de la musique électronique, il n'existait qu'une seule manière de capturer des sons, c'était en utilisant un microphone. Cette méthode d'enregistrement sonore reste absolument inchangée depuis ses origines, même si les supports d'enregistrements se sont multipliés et ont évolué. Elle est encore aujourd'hui la seule méthode possible pour enregistrer les voix, les bruits, les sons naturels et les instruments de musique acoustique (L’acoustique est une branche de la physique dont l’objet est l’étude des...), bref toute onde (Une onde est la propagation d'une perturbation produisant sur son passage une variation réversible...) sonore véhiculée dans l'air (L'air est le mélange de gaz constituant l'atmosphère de la Terre. Il est inodore et...).
C'est dire combien la qualité du ou des microphones revêt une importance primordiale. Dans l'équipement de studio professionnel de prise de son, il est un des élément les plus importants et c'est souvent un de ceux qui coûtent le plus cher. Les ingénieurs du son le savent : un signal parfait dès le départ garantit un enregistrement de qualité.
Dans la prise de son professionnelle, la qualité des microphones ne suffit pas. Le preneur de son doit également trouver le bon placement des micros, et certaines conditions d'enregistrement sont souvent sources de véritables casse-tête. Si la prise de son monophonique (Le terme monophonique peut recouvrir deux aspects :) peut sembler assez aisée à mettre en œuvre, il n'en est pas de même de la prise de son stéréophonique dite "naturelle"; c’est-à-dire celle qui utilise une base stéréophonique (2 microphones disposés en couple) principale et plusieurs micros d'appoint dont le but est de préciser certaines sources. Une des principale difficulté réside alors dans le placement optimal du couple principal, car toute erreur ne pourra plus être corrigée lors de la phase de post-production. Cette difficulté est décuplée lorsque l'on multiplie les bases stéréophoniques dans le but de simuler des effets de plans sonores. Par ailleurs, dès lors qu'il s'agit de multiplier les sources principales (prise de son de proximité), d'autres phénomènes interviennent. En effet, plus on augmente le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de microphones, et plus se posent des problèmes de rotation de phase lors de leur mélange (Un mélange est une association de deux ou plusieurs substances solides, liquides ou gazeuses...). D'autre part le fait de rapprocher une source d'un capteur (Un capteur est un dispositif transformant l'état d'une grandeur physique observée en une...) modifie sa courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du...) de réponse en fréquence : c'est ce qu'on appelle l'effet de proximité qui tend à amplifier les basses fréquences; effet d'autant plus marqué que le microphone est directif. Lorsqu'il s'agit par exemple d'enregistrer un orchestre, le placement des micros et ensuite les dosages au niveau de la table de mixage peuvent requérir des heures (L'heure est une unité de mesure :) de préparation et d'essais dont on ne peut pas faire l'économie même lors d'un enregistrement multipiste permettant d'enregistrer chaque instrument individuellement et de réaliser le mixage ultérieurement. On parle alors de post-mixage de montage ou de post-production.
Depuis l'invention de la musique électronique, l'enregistrement sonore est entré dans une ère nouvelle car les générateurs électroacoustiques, qu'il s'agisse de synthétiseurs, d'échantillonneurs ou de cartes son d'ordinateur produisent directement le son sous forme de signal électrique, lequel peut directement être enregistré en s'affranchissant d'une étape, celle du microphone. Il faut cependant souligner que les sons produits électroniquement ne sont pas des sons naturels et le champ (Un champ correspond à une notion d'espace défini:) d'application est surtout orienté vers la production de musique actuelle, bruitages, effets sonore et dans une moindre mesure de musique de film.
À l'ère de l'électronique, l'enregistrement sonore peut être réalisé directement à partir du signal électrique. Or certaines sources ont un signal avec des caractéristiques bien particulières. Comme la radio FM, dans un enregistrement sonore de radio FM, il y a très souvent un affaiblissement très important à partir de 15 kHz (fréquence limite) et un pic à 19 kHz (stéréo). C'est pour cela qu'il est recommandé que l'échantillonnage (L'échantillonnage est la sélection d'une partie dans un tout. Il s'agit d'une notion importante...) soit de 32 000 Hz (2×16 000 Hz).
(liste à compléter)
Dans le cas d'un enregistrement analogique comme dans celui d'un enregistrement numérique, transformer une onde (Une onde est la propagation d'une perturbation produisant sur son passage une variation...) sonore en variations de tension (La tension est une force d'extension.) ou en données informatiques, introduit des limitations dues aux moyens d'enregistrement.
La " dynamique " ou " portée dynamique " d'un système d'enregistrement est le terme utilisé pour désigner la différence qui existe entre les amplitudes minimum et maximum que chaque maillon (Le maillon en language maritime est une longueur de chaîne (ligne de mouillage), qui mesure 15...) du système peut reproduire ou enregistrer. Cela commence généralement par le microphone, qui convertit le son en signal électrique, pour aller jusqu'au support de l'enregistrement, disque, bande magnétique ordinateur... Rappelez-vous que les décibels expriment un rapport. Dans le cas de la dynamique, la valeur donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) correspond au niveau maximum possible sans distortion par rapport à une référence qui varie suivant le type d'appareil. Dans le cas du microphone, cette référence correspond au niveau de la pression atmosphérique (La pression atmosphérique est la pression qu'exerce le mélange gazeux constituant...) standard alors que pour les appareils électriques c'est souvent le niveau de bruit de fond (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son....) qui est pris comme référence. Dans le cas du numérique, la dynamique correspond à une valeur théorique donnée (Dans les technologies de l'information, une donnée est une description élémentaire,...) par la formule 20 x Log (2^n) où n correspond à la quantification du signal. En pratique cette valeur est minorée par divers phénomènes (bruit de quantification, précision sur très bas niveaux...etc). Voici quelques exemples :
Un orchestre symphonique peut jouer des sons sur une gamme allant jusqu' à 110 dB. Pour cette raison, on utilise des systèmes qui compriment la dynamique, le compresseur audio afin d'éviter que les signaux forts ne soient écrêtés et les faibles inaudibles. Cette limitation/compression peut être effectuée à la prise de son, lors du mixage, lors du mastering ou lors de chacune de ces 3 étapes. Sur un magnétophone professionnel 1/2 pouce tournant en 76 cm/s et équipé de Dolby SR, on peut obtenir un rapport S/B dépassant 100 dB !
En plus d'être moins performants que l'oreille humaine (L'oreille humaine est l'organe qui sert à l'Être humain à capter le son. C'est donc...), les systèmes d'enregistrement ont aussi le défaut d'émettre leur propre bruit. Cela peut être le frottement (Les frottements sont des interactions qui s'opposent à la persistance d'un mouvement relatif entre...) de la tête de lecture sur le disque vinyle (Le vinyle est, selon l’IUPAC (International Union of Pure and Applied Chemistry),...) ou le ronflement (Le ronflement désigne le bruit respiratoire que produit un dormeur. Ce bruit traduit la...) de l'amplificateur (On parle d'amplificateur de force pour tout une palette de systèmes qui amplifient les...). Ce bruit, généralement assez faible limite la dynamique de l'appareil vers le bas. Il est perçu la plupart du temps comme un ronflement ou un souffle qui s'entend bien avec un casque de bonne qualité. Ce souffle ressemble à un bruit de chute d'eau (L’eau est un composé chimique ubiquitaire sur la Terre, essentiel pour tous les...) car il a un spectre qui couvre toute la bande audio. C’est-à-dire qu'il contient toutes les fréquences perceptibles par l'oreille (L'oreille est l'organe qui sert à capter le son et est donc le siège du sens de...) humaine (de 20 Hz à 20000 Hz)
Tous les appareils et systèmes qui concourent à enregistrer un signal se comportent comme des filtres ou des générateurs et de fait introduisent des distorsions du signal. Bien entendu, la chaîne de reproduction ne déroge pas à cette règle et amène elle aussi son lot de distorsions et bruits, depuis les têtes de lectures, les préamplis, les amplis jusqu'aux haut-parleurs en passant par les câbles et connecteurs.
Ces filtres ont un effet important sur la phase et sur la réponse en fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un...) du signal dont ils modifient le spectre. Ces altérations dépendent de la fréquence. Mais les appareils de reproduction peuvent aussi se comporter en véritables générateurs et ajouter des fréquences qui n'existent pas dans le signal d'origine; c'est ce qui se passe par exemple dans le cas de la distortion harmonique (Dans plusieurs domaines, une harmonique est un élément constitutif d'un phénomène périodique...) où l'appareil superpose au signal d'origine des sous multiples de celui-ci (les harmoniques).
En audio, les principaux types de distortions sont la distortion harmonique, la distortion de croisement, la distortion d'intermodulation transitoire, et la petite dernière: la distortion thermique (La thermique est la science qui traite de la production d'énergie, de l'utilisation de...).
La quantification nécessaire à l'enregistrement numérique introduit du bruit. Elle consiste à transformer chaque valeur instantanée du signal échantillonné en un nombre compris dans une échelle de valeurs espacées à intervalles réguliers. La plupart du temps, il s'agira (Agira est une commune italienne de la province d'Enna dans la région Sicile en Italie.) d'une échelle entière, et une valeur correspondra à un niveau d'amplitude (Dans cette simple équation d’onde :), ces niveaux étant linéairement répartis. Toute représentation d'une grandeur physique (Une grandeur physique est un ensemble d'unités de mesure, de variables, d'ordres de grandeur et de...) sous forme d'un nombre entier ne sera toujours qu'une approximation (Une approximation est une représentation grossière c'est-à-dire manquant de...) de celle-ci, et la différence entre la valeur quantifiée et la valeur réelle représente le bruit ajouté.
La quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire,...) de bruit de fond ajouté est intimement liée à la profondeur de représentation choisie, ou encore la quantité d'information qu'on a choisi d'utiliser pour représenter un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou...). Le calcul se fait selon un rapport signal/bruit, exprimé en dB, quand le signal utilise toute l'échelle d'amplitude dont il dispose. Les profondeurs d'enregistrement numérique sont souvent exprimées en bits, ce qui correspond au nombre de chiffres binaires qu'on utilisera pour représenter une valeur. Les plus courantes sont :
Il est également courant d'enregistrer dans un format en virgule flottante, ce qui attribue plus de précision aux valeurs faibles et facilite les calculs.
Un enregistrement en 16 bits aura une gamme de valeurs large de 65 536 unités et un palier constant de 1. Le rapport signal/bruit peut être déduit :
Il est recommandé de réduire l'impact de la quantification en ajoutant artificiellement du bruit au signal quantifié, afin d'éliminer les distorsions au prix d'un léger bruit de fond supplémentaire, mais plus "naturel". (voir dithering, noise shaping)
Le bruit se fait particulièrement entendre sur un CD dans les passages de faible niveau. En effet, la quantification étant constante et linéaire, les faibles niveaux acoustiques sont découpés de façon grossière, les valeurs discrètes pour les décrires sont moins nombreuses. Lorsqu'on dispose de 16 bits pour décrire une échantillon, cela ne vaut que sur la totalité de la plage (La Plage est un film anglo-américain réalisé par Danny Boyle en 2000 et adapté...) dynamique qui est au maximum de 96 dB. Cependant à un faible niveau de l'ordre de 20 dB, seuls les 3 ou 4 premiers bits sont significatifs, augmentant d'autant l'erreur de quantification et par conséquent le bruit. Ce sont les limites connues et difficiles à corriger des CD. Seule une plage (La géomorphologie définit une plage comme une « accumulation sur le bord de mer de...) de valeurs de quantification plus grande (20, 24 ou 32 bits) permet de s'affranchir de ce défaut, particulièrement audible dans la musique classique.
Voir échantillonnage pour des informations plus détaillées sur les problèmes posés.
L'échantillonnage consiste à découper l'information sonore qui arrive sous forme électrique (donc analogique) à intervalles de temps réguliers. La vitesse (On distingue :) à laquelle la carte son enregistre des points est la fréquence ou cadence d'échantillonnage. La norme (Une norme, du latin norma (« équerre, règle ») désigne un...) des CD Audio fixe la fréquence d'échantillonnage à 44100 Hz, ce qui signifie que 44100 valeurs sont capturées chaque seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui...). Si on ne prend pas de précaution avant l'échantillonnage, il se peut qu'on introduise un fort bruit de fond voire une dénaturation du signal, car les fréquences plus élevées que la moitié de la fréquence d'échantillonnage ne seront pas restituées mais, et c'est plus gênant, vont se répercuter sur les fréquences inférieures.
Il faut faire en sorte que toutes les fréquences supérieures à la moitié de la fréquence d'acquisition soient éliminées, faute de quoi la restitution du son sera polluée par des sons parasites (du bruit et des interférences entre la fréquence d'échantillonnage et la fréquence du son). Dans le cas de la cadence des CD-Audio de 44,1 kHz, il ne faut pas de sons de fréquence supérieure à 22 kHz (d'après le théorème (Un théorème est une proposition qui peut être mathématiquement démontrée, c'est-à-dire une...) de Shannon).
Pour atténuer fortement les fréquences gênantes, on utilise des filtres. " Filtre " est un terme assez large qui désigne un appareil capable de retenir ou de filtrer une partie d'un son. On utilise par exemple un filtre passe-bas (Un filtre passe-bas est un filtre qui laisse passer les basses fréquences et qui atténue...) pour atténuer les hautes fréquences, inaudibles mais gênantes pour l'acquisition.
De plus en plus, des algorithmes de compression de données comme le MP3 ou bien Ogg (Ogg est le nom du principal projet de la fondation Xiph.org dont le but est de proposer à la...) Vorbis (Vorbis est un algorithme de compression et de décompression (codec) audio numérique, sans...) sont utilisés pour gagner une précieuse place sur nos supports d'enregistrement. Ces algorithmes sont dit " destructifs " car ils détruisent une partie du signal sonore pour réduire (autant que le débit (Un débit permet de mesurer le flux d'une quantité relative à une unité de temps au travers...) choisi l'impose) la taille du fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un...) son final. Les programmes de compressions utilisent un modèle de l'oreille humaine afin d'éliminer les informations inutiles. Par exemple, si deux fréquences sont proches l'une de l'autre, la plus faible pourra être éliminée si elle est considérée comme masquée par la plus forte. Pour cette raison, on trouve sur internet (Internet est le réseau informatique mondial qui rend accessibles au public des services...) un certain nombre de tests et de recommandations sur la manière d'utiliser ces logiciels pour éviter une dégradation audible des enregistrements. Il ressort de ceux que l'auteur a consulté que de nombreux encodeurs MP3 filtrent systématiquement les signaux supérieurs à 16 KHz et se limitent à un " bit rate " (traduit par " débit ") de 128Kps. Ces chiffres s'avèrent largement insuffisants dans de nombreux cas si l'on souhaite conserver une qualité d'écoute (Sur un voilier, une écoute est un cordage servant à régler l'angle de la voile par rapport à...) proche de celle obtenue avec les CD. A l'opposé ( En mathématique, l'opposé d’un nombre est le nombre tel que, lorsqu’il est à...) les systèmes de compression de données comme gzip, bzip2 (bzip2 est à la fois le nom d'un algorithme de compression de données et d'un logiciel libre sous...), lha ou zip n'altèrent pas les données mais ont des taux de compression (Le taux de compression est une mesure de la performance d'un algorithme de compression de données...) plus faibles. Il faut de plus, décompresser tout le fichier avant de l'écouter, ce qui s'accommode assez mal des baladeurs et autres lecteurs. Il existe tout de même des formats de compression audio non destructifs comme le format ape ou flac, qui peuvent s'écouter de la même manière que ceux au format MP3 ou ogg, mais les taux de compression sont bien sûr plus faibles (divisé par 2 au lieu de 10 en moyenne), et peu de lecteurs audio les supportent.
Alors que les supports de stockage deviennent de plus en plus abordables et offrent des espaces de stockage quasiment illimités, on peut légitimement se demander si les technologies de compression sonore ont encore de l'avenir. Pour les prochaines années, la réponse est clairement oui, et pour (au moins) deux raisons essentielles :