Le MP3 (technique)
Plan
Introduction
MPEG - définitions
Relation entre MPEG et MP3
Historique
Principe
Comment analyser le son ?
Les algorithmes
Masquage de fréquences
Courbe de Fletcher-Munsen
L'algorithme de Huffman
La stéréo combinée
La mémoire tampon
Récapitulatif
Expérience
Démarche
Résultats
Conclusion de l'expérience
Conclusion
Conclusion sur le MP3
Les successeurs (AAC, VQF, AC3)
Comparatif AAC/VQF/MP3
Les successeurs du MPEG
Suppléments-Compléments-Divers...
Taux de compression
Ressources à télécharger
Lexique
Introduction
MPEG - définitions
MPEG signifie "Moving Picture Experts Group".
C'est un groupe de travail dans un sous comité de l'
ISO (International Standards Organisation)
et de l'
IEC (International Electrotechnical Commission) qui génère des standards pour les compressions
audio et video.
Les algorithmes ne sont pas définis par MPEG. MPEG décrit des méthodes pour tester les données compressées et les décodeurs
associés au standard. MPEG publie aussi tous les rapports techniques.
MPEG-1 est un standard comprenant 5 parties :
- Systèmes
Gère le problème de combiner un ou plusieurs flux de données provenant des parties vidéo ou audio avec les
informations temporelles pour former un seul flux. Cette fonction est importante car, une fois que les données sont rassemblées
en un même flux, leur transmission est facilitée. La figure ci-dessous illustre cette première partie :

- Vidéo
spécifie une représentation codée qui peut être utilisée pour compresser des séquences vidéo à des taux de 1,5 Mbps environ.
- Audio
Cette partie est la compression audio et sera développée plus loin (c'est le centre de ce site !)
- Test
Spécifie comment les tests peuvent être créés pour vérifier si les flux de données et décodeurs répondent bien
aux spécificités définies aux parties 1, 2 et 3.
- Simulation du software
Cette partie n'est pas techniquement un standard, mais un rapport donnant une complète implémentation des 3 premières parties du MPEG-1.
Le MP3 dans tout ça...
Le format MP3 fait partie intégrante du format MPEG-1 (le format MPEG-1 était utilisé par les CDI Philips).
MPEG-1 a presque complètement disparu aujourd'hui et remplacé par le MPEG-2 (DVD). Le format audio MP3 est toujours présent
mais sous une forme améliorée.
Il y a trois couches (layer en anglais) de codage audio dans les formats MPEG-1 et MPEG-2 nommées Layer-1, Layer-2 et Layer-3.
De Layer-1 à Layer-3, les méthodes de codage et les performances (qualité / taille) augmentent. Layer-3 est la
dernière évolution du codage audio. Les trois couches Layer-1,2,3 gardent une compatibilité ascendante, c'est à dire
qu'un décodeur Layer-3 peut aussi décoder des Layer-1 et 2.
MP3 signifie MPEG audio Layer-3. C'est la troisième partie du MPEG, et la couche 3.
Bref historique
En 1986, K. Brandenburg et son équipe et son équipe, travaillant à l'institut Franhofer, sont
chargés du projet Eurêka qui est la création d'une radio numérique (du nom de DAB : Digital Audio Broadcasting)
Le problème était que le son ne pouvait être transmis intégralement. Il fallait créer un moyen de le transformer et
compresser pour le transmettre.
En 1992, le travail de Brandenburg a abouti : le MPEG audio layer 3 est reconnu comme standard de compression et en 94,
Brandenburg opte pour une diffusion libre. Rapidement, le MPEG audio layer 3 est renommé MP3.
Principe
Le mp3 est fondé sur le principe du "Codage perceptuel". Cela consiste à réduire au maximum la
quantité d'informations nécessaires à la perception intégrale du son par l'oreille humaine. D'un point de vue strictement
technique, il s'agit d'un procédé destructif ; mais, et c'est là la nouveauté, cette perte est quasiment imperceptible car
elle est fondée sur les limites connues du système auditif humain.
Le décodeur est bien moins complexe car son seul travail est de reconstruire le signal audio à partir des composantes codées.
C'est pourquoi on s'intéressera seulement au processus de codage.
Mais ce codage ne s'applique pas au signal audio lui-même. Il faut le transformer :
Comment analyser le son ?
Le son à la sortie du micro se présente sous la forme d'une variation périodique de tension, évoluant au cours
du temps. Ce signal est découpé en blocs de 24 ms que l'on traite successivement. Le signal de chaque bloc est transformé
à l'aide d'une décomposition en série de Fourier en 32 composantes nommées sous-bandes.
Après avoir codé les sous-bandes, on les assemble pour obtenir le fichier codé.
Les algorithmes interviennent seulement sur les sous-bandes :
Les algorithmes
Masquage de fréquences
Le logiciel de codage s'attaque à l'élimination des sons imperceptibles dans les zones où l'intensité générale est
susceptible de produire un
effet de masque. Cet effet correspond à une saturation de l'oreille par un son dominant qui
"gomme" temporairement des bruits moins intenses (par exemple, l'effet d'un coup de klaxon au milieu d'un chant
d'oiseaux).
Ce son dominant est appelé masqueur et sera conservé tandis que les sons masqués ne seront pas codés.

La courbe de Fletcher-Munsen
Un seecond traitement repose sur l'usage d'un modèle mathématique de l'audition humaine, la courbe de Fletcher-Munsen.
Les composantes dont l'intensité ne dépasse pas le seuil ne seront pas codées. Celles dont la fréquence est supérieure
à 20 kHz seront aussi systématiquement supprimées.

L'algorithme de Huffman
La compression Huffman consiste à coder les données selon leur récurrence statistique. Plus la valeur à coder est
courante, plus le code qui lui est associé est court. Au moment de la décompression, ces codes de longueurs variables sont
confrontés à une table de correspondance qui restitue leur valeur initiale. Cette méthode de compression, qui n'est pas
spécifique au MP3, assure à elle seule une compression de l'ordre de 20 à 25%.
La stéréo combinée
Dans les basses fréquences, l'oreille humaine n'est pas en mesure de localiser la provenance des sons. Le MP3 utilise
cette faiblesse en codant certains passages en monophonie et en leur associant des informations qui permettent de reconstituer
une stéréo simplifiée lors du décodage.
La mémoire tampon
Toutefois, une simplification excessive de certains passages musicaux pourrait s'avérer perceptible. Ainsi, dans les
phases critiques de la restitution, le MP3 utilise des données supplémentaires stockées dans un réservoir nommé mémoire
tampon, qui se remplit lorsque d'autres passages nécessitant particulièrement peu de données font transiter
dans le creux du flux des informations qui serviront par la suite.
Récapitulatif
 |
Le signal entrant passe d'abord dans le filtre (filter bank) qui le décompose en sous-bandes. Puis on
applique le modèle perceptuel pour utiliser dans les basses fréquence un codage en monophonie (joint stereo coding) et pour
calculer les seuils de masquage. Une boucle permet alors d'ajuster au mieux le rapport entre une qualité sonore
optimale et le taux de compression exigé : commençant avec un facteur d'échelle (scale factor) de 1 affecté à chaque
sous-bande, la boucle modifie ces facteurs indépendament pour chaque sous-bande pour éliminer les parasites ou
faire passer ces bandes sous le seuil de masquage. Enfin, les sous-bandes codées sont assemblées.
|
Expérience
Démarche
Voici une méthode pour mettre en évidence les effets de la compression en mp3 : on a pris ici un extrait de la Flûte
enchantée de Mozart (le solo de la reine de la nuit pour les amateurs...) à partir d'un CD, puis on le compresse à
différents taux : 9x, 12x et 16x grâce à
Music Match Juckbox.
Ensuite, on a utilisé
Winamp pour lire les musiques
et un programme (plug-in du nom de
FunkyFX)
qui donne la décomposition en sous-bandes en temps réel pendant la lecture
de la musique. Enfin, on a enregistré à un moment précis de la musique un spectre pour chaque taux de compression, et
on a comparé ces spectres.
Résultats
Voici les quatre différents spectres relevés (par impression d'écran) :

Fichier Wav (source, sans compression)

Fichier compressé 9 fois (128 kbps)

Fichier compressé 12 fois (96 kbps)

Fichier compressé 16 fois (64 kbps)
On constate que plus la compression est importante, et plus l'intensité sonore baisse, ainsi que le
nombre de sous-bandes qui font la richesse du son. A l'oreille, on perçoit en effet cette épuration du son à
partir de 16x.
Conclusion de l'expérience
L'expérience met en évidence l'effet de la compression mp3, là où l'oreille n'est pas capable de
discerner l'évolution sonore due à la compression.
Conclusion
Conclusion sur le MP3
L'objectif de Brandenburg est donc atteint : son format de compression présente un très bon compromis entre
une qualité sonore préservée et un encombrement diminué.
De plus, le décodage étant plus simple, un petit processeur suffit pour en réaliser les calculs. C'est ainsi que
l'on a vu apparaître des baladeurs portables mp3 de la taille d'une carte de crédit ne craignant ni vibration, ni
poussière.
Les successeurs du MP3
D'autres formats plus récents sont disponibles pour compresser et coder le format audio :
- AC-3 (Audio Code Number 3)
Cette technologie de compression audio multi-canaux a été développée par les laboratoires DOLBY. Le but de cette
compression digitale est de produire une représentation digitale d'un signal audio qui, lorsqu'elle est décodée est
identique à la source et ceci en utilisant le moins de données (bitrate) possible. Dans le principe, c'est la même chose
que le MP3 mais l'AC-3 gère en plus le multi-canaux et le son SURROUND.
Les laboratoires DOLBY utilisent le terme DOLBY DIGITAL pour le cinéma en salles et le terme DOLBY SURROUND AC-3 pour le cinéma
à domicile (Home theater). Ces deux techniques ne diffèrent que par le taux de compression. Depuis peu et pour éviter la
confusion, les laboratoires DOLBY ont réuni ces 2 termes sous une seule appellation : DOLBY DIGITAL.
L'AC-3 peut contenir jusqu'à cinq canaux audios complets (3Hz à 20000Hz), 3 à l'avant et deux à
l'arrière (surround). Il contient aussi 6 canaux pour les effets de basses (3Hz à 120Hz) et des données sur la
géométrie de la pièce et le point entre les différents canaux.
Comme le MP3 et l'AAC, le codage AC-3 utilise les propriétés de masquage en fréquences de l'oreille humaine.
Le Dolby AC-3 est beaucoup utilisé au cinéma avec un flux de 640 Kbps. Le THX est aussi basé sur le format AC-3, il est
utilisé par les Laserdiscs (384 Kbps) et maintenant par les DVD.
- AAC (Advanced Audio Coding)
Aussi appelé NBC (Non Backward Compatible).
Ce format est intégré au MPEG-2. L'AAC se rapproche de la norme AC3 (multi-canaux
) mais beaucoup plus flexible car il
supporte une large gamme de fréquences d'échantillonnage et de débits. Il gère jusqu'à 48 canaux audios et le
multi-langages. A qualité sonore identique, l'AAC réduit la taille des fichiers d'un facteur 2 par rapport au MP3.
- TwinVQ (Transform-domain Weighted Interleave Vector Quantization)
Aussi appelé format VQF. C'est une nouvelle technologie de compression audio développée par NTT Human Interface
laboratories. TwinVQ est une méthode de codage comme MP3, AAC et AC3, elle utilise des outils de AAC mais elle est totalement
différente. Avec TwinVQ, les bits de musique ne sont pas codés directement mais assemblés en segments puis ces segments sont
envoyés à l'algorithme de codage. Cela permet de minimiser les distorsions pour des bitrates assez faibles. La norme TwinVQ
sera intégrée au standard MPEG-4.
TwinVQ a été développé pour des processeurs très puissants car le codage demande énormément de puissance de processeur et
prend beaucoup de temps (trois fois plus que le codage MP3 en qualité maximale).La qualité du son d'un fichier TwinVQ 96
Kbps est meilleure qu'un fichier MP3 128 Kbps. On peut donc atteindre un ratio de 1:15 pour un codage haute qualité et en
plus, le résultat sera meilleur que le codage MP3 avec un ratio de 1:12. Il est donc possible de stocker plus de 15 heures de
sons haute qualité sur un CD-ROM. Pour des taux de compression plus élevés, TwinVQ est vraiment mieux que le MP3.
Un autre avantage est que l'on peut jouer ces fichiers en temps réel car les fichiers sont de taille inférieure aux
fichiers MP3.
Comparatif AAC/VQF/MP3
Pour chaque logiciel, les tests ont été effectués en mesurant la durée totale de compression et la taille des
fichiers compressés.
Le fichier source est un fichier WAV de 4min 4s, avec une fréquence de 44100 Hz (16bits) sur 2 canaux.
L'encodage est effectué à 128 Kbps en MP3 et 96 Kbps en AAC et VQF. Les fichiers compressés sont donc supposés être de
même qualité car un encodage à 96 Kbps AAC et VQF est aussi performant que du MP3 à 128 Kbps.
Comparatif Vitesse/Taille :
Format | MP3 | MP3 | VQF | AAC |
Encodeur | Xing MP3 Encodeur 1.02 | MP3 Producer Pro 2.1 |
Yamaha SoundVQ Encodeur 2.54 | Quartex/Astric AAC Encodeur 0.2 |
Bitrate (Kbps) | 128 | 128 | 96 | 96 |
Durée | 0:47 | 2:02 | 9:01 | 9:43 |
Taille (Ko) | 3880 | 3880 | 2420 (-38%) | 2900 (-25 %) |
La taille des fichiers compressés est beaucoup plus petite dans le cas d'un encodage AAC ou VQF (de 25
à 40 %) mais la durée de compression reste très élevée comparativement au MP3 (jusqu'à un facteur 10).
En ce qui concerne le codage AAC, sa qualité de compression est équivalente au format VQF. Les formats AAC et VQF permettent
d'obtenir une qualité de compression supérieure au format MP3 et avec un taux de compression plus élevé (fichiers 25 à
35 % plus petits). Seul gros regret, la compression est trop lente (8 à 10 fois plus lente que les encodeurs MP3) et
nécessite des PC assez puissants (idem pour la lecture).
Les successeurs du MPEG
Le format MPEG-4 Audio intégrera la plupart des techniques actuelles de codage audio (TwinVQ et AAC). Il comportera des
outils pour la modélisation de sons 3D à partir de sources naturelles ou artificielles. Il sera complètement multi-canaux
(5canaux séparés et donc la possibilité de supprimer un ou plusieurs instruments lors de l'écoute d'un concert et
de jouer à la place de celui-ci).
La qualité CD sera obtenue avec un bitrate de 64 Kbps (le MP3 est à 128 Kbps) et ce taux pourra varier de 2 Kbps à plus de 64
Kbps. Ce taux et cette qualité seront obtenus grâce à un savant mélange des nouvelles techniques de codage suivant
différents critères (fréquences, bitrate, ratio de compression, type de sons... etc).Le tableau suivant récapitule
l'évolution de la norme MPEG :
Phase | Niveaux | Norme | Cible | Date | Commentaire |
MPEG-1 | Layers I à III | ISO/IEC 11172-3 | stockage audio | nov. 1992 |
le layer III permet l'utilisation d'un taux d'encodage variable (VBR) |
MPEG-2 | Layers I à III | ISO/IEC 13818-3 | télévision numérique (DVD) | nov. 1994 |
Aussi appelé AAC |
MPEG-4 | version 1 | ISO/IEC 14496-3 | Applications multimédias | oct. 1998 |
Fondé sur le MPEG-2 AAC, il incorpore aussi les techniques du TwinVQ |
| version 2 | | | déc. 1999 | |
MPEG-7 | | | Recherche d'informations | 2001 | |
Suppléments-Compléments-Divers...
Taux de compression
Voici un tableau donnant les taux de compression de différents systèmes audio :
qualité sonore | bande passante | mode | bitrate | taux de compression |
téléphone | 2.5 kHz | mono | 8 kbps | 96:1 |
un peu mieux | 4.5 kHz | mono | 16 kbps | 48:1 |
radio AM | 7.5 kHz | mono | 32 kbps | 24:1 |
radio FM | 11 kHz | stereo | 56...64 kbps | 26...24:1 |
proche du CD | 15 kHz | stereo | 96 kbps | 16:1 |
CD | >15 kHz | stereo | 112..128 kbps | 14..12:1 |
Ressources à télécharger
Si vous voulez obtenir plus d'informations sur le MPEG-4,
cliquez ici (c'est en Anglais...)
Pour une documentation plus complète, lire les documents
de ce lien
et
de celui-là, écrits par un spécialiste de la compression chez Motorola. Mais attention,
c'est tout en Anglais...
Voici le
site de l'institut Franhofer, en Allemagne. Comme ça, si vous
voulez voir l'endroit où a été créé le mp3, où même écrire à Mr Brandenburg...
Et puis aussi
le texte qu'on trouve sur ce site, zippé par commodité !
Pour le
site officiel du groupe MPEG, c'est ici qu'il faut s'adresser.
Ce texte est un
question-réponse sur le MPEG-1
(y compris la compression vidéo) assez complet et court en même temps, mais encore en Anglais...
Lexique
AAC | Advanced Audio Coding |
AC-3 | Audio Code Number 3 |
bitrate | nombre de bits qu'une seconde de données occupe dans le fichier compressé. L'unité est le Kbits/s. |
CDDB | Compact Discs Data Base, reconnaissance des pistes avec le nom de l'artiste, le titre de l'album et le titre du morceau. |
Codec | Contraction de codeur / décodeur. |
Compresseur (MP3) | Logiciel dont l'action est de transformer un fichier audio (WAV)
en fichier MP3 en lui faisant subir différentes étapes de traitement et de filtrage. |
Compression | Action de réduction des données dans le but d'optimiser l'espace-mémoire
disponible dans la bande passante d'un canal hertzien. La compression audio est constituée de 2 parties :
La première partie est le codage qui transforme les données reçues (fichier WAVE) en données hautement
compressées (appelé bitstream) à l'aide d'un encodeur audio.
Pour lire ces formes de données compressées, il vous faut un décodeur audio, c'est la seconde partie de la compression. |
DAB | Digital Audio Broadcasting. La future radiodiffusion en numérique. |
DAE | Digital Audio Extraction |
Décibel (dB) | unité de mesure de l'intensité sonore. |
Echantillonnage | Découpage à plus ou moins haute fréquence d'un signal audio destiné à être numérisé. |
IEC | International Electrotechnical Commission |
ISO | International Standards Organisation |
Lecteur (MP3) | Logiciel capable d'effectuer une décompression en temps réel d'un fichier MP3. |
MP3 | MPEG Audio Layer 3. |
MPEG | Moving Pictures Expert Group. Groupe de travail dans un comité de l'ISO. |
NBC | Non Backward Compatible (autre nom pour AAC) |
PCM | Pulse Code Modulation (MIC, pour Modulation d'Impulsions Codées). |
SDMI | Secure Digital Music Initiative. |
VBR | taux d'encodage variable (ce qui distingue en partie le layer 3 des 1 et 2). |
VQF | Appelé aussi TwinVQ (Transform domain Weighted Interleave Vector Quantization). |
WAVE (WAV) | Format audio élaboré par Microsoft. |
WMA | Format créé par Microsoft pour la technologie Windows Media. |
Si vous voulez
m'écrire, je vous répondrai avec plaisir...
Bien sûr, je n'ai pas inventé tout ce texte. La plupart (à part l'expérience) a été extrait ou traduit de textes existant
déjà sur Internet. Je n'ai fait qu'une compilation. Je remercie tous leurs auteurs de publier leur savoir.
Revenir en haut