ANNEXE 1 : Présentation de MPEG4 Présentation de MPEG4
  1 Introduction

2 Objectifs de la norme

2.1 Cahier des charges et fonctionnalités
2.2 Les applications
2.3 Buts de la standardisation


3 Description Technique

3.1 Structure générale 3.1.1 Description
3.1.2 Description d’une scène
3.1.3 Interaction avec les objets "média" dans une scène MPEG4
3.2 Codage des objets vidéo (VOP) 3.2.1 Vidéo naturelle 3.2.1.1 Des outils standards
3.2.1.2 Structure des outils de représentation des vidéo "naturelles"
3.2.1.3 Schéma de codage des images et des vidéos par MPEG4
3.2.1.4 Codage des textures et des images fixes
3.2.2 Objets synthétiques  3.2.2.1 animation du visage
3.2.2.2 Animation du corps
3.2.2.3 Animation des maillages 2D
3.2.2.4 Echelonnage en fonction des vues
3.2.2.5 Codage des formes et de la transparence
3.3 Les outils de MPEG4 3.3.1 Fonctionnalités supportées par les outils de MPEG4 3.3.1.1 Fonctionnalités conventionnelles et basées sur le contenu
3.3.1.2 Adaptabitité du codage des "objets vidéo"
3.3.1.3 L’interaction
3.3.1.4 Les droits de propriétés intellectuelles
3.3.1.5 Informations contenues dans les objets
3.3.1.6Les formats supportés:
3.3.1.7 Efficacité de la compression:
3.3.2 Les outils de MPEG-4 version 1 3.3.2.1 Profils visuels
3.3.2.2 Profils audio
3.3.2.3 Profils graphiques
3.3.2.4 Les profils de description de scène
3.3.2.5 Les profils de description d'objets


4 Problèmes ouvert

  1. Introduction

  2. MPEG4 est un standard ISO/IEC développé par MPEG (Moving Picture Experts Group), comité développant aussi les normes MPEG1 et MPEG2. C'est notamment grâce à ces standards que la vidéo sur CD-ROM et la télévision numérique sont aujourd'hui possibles.

    L'objectif premier de la norme MPEG4 était de succéder aux normes MPEG1 pour la compression et le transfert audio - vidéo et MPEG2 pour la télévision numérique. Mais lors de l'élaboration de la norme, il a été défini un champ d'applications et de fonctionnalités dépassant largement le cadre d'une simple évolution : la norme devient alors une véritable révolution tant au niveau même de son concept qu'au nombre d'applications qu'elle touche.

    MPEG4 devient la fusion de trois mondes : l'informatique, les télécommunications et la télévision. Elle sera le résultat d'un effort international regroupant des centaines d'ingénieurs et de chercheurs du monde entier et de divers milieux : université, centres de recherche, grands groupes informatiques (IBM, Microsoft, Sun,…) et de télécommunications (AT&T, France Telecom,…) et autres grands groupes industriels(Phillips, Sony,…). MPEG4 a été finalisé en octobre 1998 et deviendra un format international d'ici quelques mois. Cette norme est bâti sur le succès futur de la télévision numérique, des applications graphiques interactives et du multimédia (WWW), son but étant d'assurer une standardisation technologique à tous les niveaux : production, distribution et diffusion.

    Dans notre présentation, nous donnerons une vue d'ensemble du standard MPEG4, expliquant sur quelles technologies il se base, et quelles applications supportent cette technologie. Nous ne développerons pas la partie audio de MPEG4 pour nous concentrer uniquement sur la partie vidéo.
     

  3. Objectifs de la norme
    1. Cahier des charges et fonctionnalités

    2. Les objectifs de la norme sont assez vastes du fait du nombre important d'applications touchées. Le cahier des charges n'en est que plus précis et complet:

      Ce cahier des charges très complet a pour but de satisfaire un grand nombre d'applications qui vont maintenant être développées.

      Les applications

      Le standard MPEG4 va fournir un ensemble de technologies satisfaisant le besoin des auteurs, des fournisseurs et au final des utilisateurs.


    3. Buts de la standardisation

      Pour toutes ces applications, les buts de la standardisation MPEG4 sont :

    4. Description Technique

    5. Elle concerne ici essentiellement l'aspect visuel de la norme.

      1. Structure générale

        1. Description

          La norme MPEG4 propose une solution radicalement différente pour le codage des vidéos afin de satisfaire à tous ses besoins dans les différentes applications qu’elle propose. Les scènes audiovisuelles sont ainsi composées de plusieurs objets médias hiérarchisés.

          Le schéma suivant donne l'exemple d'une scène décomposé suivant l'idée de MPEG4:
           

           
           

          fig. : exemple d'une scène MPEG4

           

          Ainsi, dans l'arborescence de cette hiérarchie, on trouve:

          • des images fixes (background)
          • des objets vidéos (objets en mouvement sans background)
          • des objets audio (la voix associée à l'objet en mouvement)
          MPEG4 définit donc précisément la manière de décrire d’une scène. La description d'une scène codée par MPEG4 peut être comparée au langage VRML dans sa structure et ses fonctionnalités.

          Description d’une scène

          Une scène audiovisuelle, codée par MPEG4, est décrite comme un ensemble d'éléments individualisés. Elle contient des composants "média" simples regroupés par type. Ces groupes correspondent aux branches d’un arbre de découpage où chaque feuille représente un élément simple. Voici un exemple de branche de codage, où on distingue les feuilles :

          • textes et graphiques
          • mouvements de la bouche et son texte associé + animation de la tête
          • son synthétique
          Par exemple, si cette branche correspondait à une personne qui parle, elle serait divisée en feuilles contenant le fond, la parole et les divers composants graphiques représentant la personne en train de parler. Une telle construction permet ainsi la construction de scènes complexes tout en autorisant l'utilisateur à manipuler qu'une partie des objets. Un objet média peut donc être associé à une information, comme on associe ici la parole à la tête d'un personnage.

          Voici le schéma de structure d’une scène MPEG4 :
           

          Fig – Structure d’une scène MPEG-4


           

          MPEG4 fournit donc des méthodes de codage pour les objets individuels (comme nous venons de le voir). La norme permet également d’optimiser le codage de plusieurs objets dans une scène. L’information nécessaire à la composition d’une scène est contenue dans la description de la scène. Celle-ci est codée et transmise avec les objets média. Ainsi, pour faciliter l’intéractivité, la description de la scène est codée indépendamment des primitives "Objets média". Une grande attention est portée sur l’identification des paramètres relatifs à la scène. Ces paramètres sont donnés par différents algorithmes qui codent de façon optimale les objets (cf " motion vectors in video coding algorithms " pour les objets fixes, et " position of the object in the scene " pour les mouvements d’objets). MPEG4 autorise la modification de ces paramètres sans avoir à décoder les objets média. Pour cela, ils sont placés dans la partie description de la scène et non avec les objets média.

          Plus généralement, MPEG4 standardise la façon de décrire une scène, en permettant par exemple:

          • de placer un objet n'importe où dans un système de coordonnées.
          • d'effectuer des transformations géométriques ou acoustiques sur un objet.
          • de grouper des éléments "média" simples pour former un composant "média" complexe
          • de modifier les attributs d'un objet en transformant ses données.
          • de changer, intéractivement, la vue et l'écoute d'une scène.
          Mais quelles sont exactement les informations données dans la description d’une scène ?
          • La première information donne la façon de coder un groupement d’objets.
          Une scène MPEG4 suit une structure hiérarchique qui peut être représentée comme un graphe acyclique (figure ci-dessous). Chaque feuille du graphe représente un objet média. La structure de l’arbre n’est pas nécessairement statique ; les feuilles (avec leurs paramètres de positionnement) peuvent être changées. On peut aussi envisager d’en supprimer, d’en remplacer ou même d’en ajouter.
          • La deuxième information donne le positionnement spatial et temporel des objets.
          Dans le modèle MPEG4, les objets audiovisuels sont à la fois spatiaux et temporels. Chaque objet média a un système de coordonnées locales. Par ce système il est possible d’attribuer un " état " spatio-temporel et une échelle à chaque objet. Les objets média sont disposés dans la scène après avoir subi une transformation du repère local au repère global, transformation définie par un de ses parents(cf Fig. ci dessus).
          • La troisième information donne la valeur qui est attribuée à la sélection.
          Chaque nœud et feuille de l’arbre contient un panel d’informations. Certaines sont accessibles et d’autres restent fixes. Il est donc possible de les paramètrer à loisir suivant les informations données par l’acteur et des contraintes définies par l’auteur.
          • Enfin, la dernière information autorise une autre transformation pour les objets média.
          La structure d’une scène MPEG4 est fortement influencée par le concept de VRML et ses possibilités d’interaction. Ceci représente l’ambition majeure de MPEG4. Interaction avec les objets "média" dans une scène MPEG4

          L'utilisateur visualise en général des scènes respectant le design de leur auteur. Mais suivant la liberté que ce dernier autorise, l'utilisateur a la possibilité d'interagir avec la scène, ce qui lui permet entre autre:

          • de changer le point de vue ou d'écoute d'une scène (par la navigation au travers de la scène)
          • de déplacer un objet dans une scène
          • de cliquer sur un objet pour obtenir des informations complémentaires sur l'objet ou lui faire effectuer des actions spécifiques.
          • de sélectionner une langue parmi celles qui sont proposées
          • d'effectuer beaucoup d'autres actions complexes comme établir une communication entre deux personnes par un simple clic de souris….
        2. Codage des objets vidéo (VOP)
          1. Vidéo naturelle
            1. Des outils standards

            2. Les outils servant à représenter les objets visuels naturels avec MPEG4 doivent provenir d'une technologie standardisée permettant le stockage, la transmission et la manipulation de toutes les données de manière simple et efficace. Ces outils doivent permettre également de décoder et représenter les images ou les vidéos contenues dans des VO (Vidéo Objects) et de les associer à d'autres AVO (Audio-Video Objects) pour créer une scène.

              Pour atteindre ce but et éviter d'avoir une multitude d'applications non conventionnées qui effectueraient quelques unes de ces fonctions, MPEG4 propose des solutions et des algorithmes, regroupant la plupart des fonctionnalités demandées par MPEG4 comme pour :

              * la compression des images et des vidéos
              * la compression des textures mapping pour les maillages 2D et 3D
              * la compression des maillages 2D implicites
              * la compression des champs d'animation géométrique des maillages
              * l'accès aléatoire de tous types de VO
              * l'extension des fonctionnalités de manipulation des images et des séquences vidéo
              * le codage des vidéos et des images basé sur le contenu
              * le redimensionnement des objets basé sur le contenu
              * le redimensionnement spatial, temporel et qualitatif
              * la robustesse et la résistance aux erreurs quel que soit l'environnement
              Toutes ces solutions seront fournies dans la partie visuelle de la norme MPEG4.
            3. Structure des outils de représentation des vidéo "naturelles"

            4. Les algorithmes de codage des images et des vidéos MPEG4 donneront une représentation rationnelle des objets vidéo, avec pour but de respecter les fonctionnalités basées sur le contenu.

              Mais MPEG4 devra également supporter les fonctionnalités déjà fournies par MPEG1 et MPEG2: la compression efficace des images traditionnelles rectangulaires de différents formats, la fréquence des images, la profondeur des pixels, le taux de transfert, et les possibilités de redimensionnement spatiaux, temporels et qualitatifs. MPEG4 veut supporter les algorithmes permettant un transfert efficace à très faible taux de transmission (VLBV: Very Lox Bit-rate Video, entre 5 et 64kBit/s) avec un taux de compression satisfaisant, une grande résistance aux erreurs, et une faible complexité pour les applications multimédia temps-réel. Toute ces applications prévu pour de faible débit devront être aussi efficaces à haut débit de transfert (HBV : jusqu'à 4MBit/s).

              L'idée d'un codage basé sur le contenu implique que MPEG4 puisse coder et décoder séparément les différents "objets vidéo" (VO) d'une scène, afin de permettre une gestion simplifiée de l'intéractivité: manipulation et représentation des objets vidéo, ainsi que le mélange entre objets naturels et objets synthétiques (comme par exemple une scène avec un fond virtuel avec des personnages réels). Mais les algorithmes supplémentaires nécessaires à la gestion du codage basé sur le contenu ne devront être qu'un ensemble additionnel d'outils aux VLBV et HBV déjà utilisés dans MPEG1 et 2.

            5. Schéma de codage des images et des vidéos par MPEG4

            6. Ci dessous le schéma de codage des images et de vidéo par MPEG4, qui permet de traiter les images traditionnelles rectangulaires aussi bien que les formes arbitraires(shape) d'une séquence.
               

              fig. Schema de codage des images

              Le principe du codage MPEG4 repose sur l'utilisation d'une approche basée sur le contenu. La difficulté étant alors de séparer les objets et le fond d'une scène, pour ensuite en tirer des avantages pour la compression et les fonctionnalités supplémentaires que cela entraînera.

              Voyons cela à partir d'un exemple:

              Cette image montre bien le concept de base du codage MPEG4:

              - On a isolé le fond de la séquence et recréé un panoramique du fond de la scène complète (estimation et compensation de mouvement par blocs de 8 ou 16 pixels).
              - Puis on a extrait du fond le personnage en mouvement
              - On ne transfère alors qu'une seule fois le fond, et ensuite le joueur en mouvement.
              - Le décodeur recrée ensuite la scène grâce : - aux paramètres de la caméra pour le fond
              - au joueur envoyé dans sa position à chaque image
            7. Codage des textures et des images fixes

            8. MPEG4 utilise les algorithmes basés sur la méthode des ondelettes pour compresser ce type d'images. En effet, cette compression est très efficace quel que soit le taux de transfert, tout en conservant ses capacités d'adaptabilité spatiale et qualitative, ce qui est non négligeable pour résoudre les problèmes d'intéractivités (notamment pour les changement de vue) et de texturage des objets 2D et 3D dans les images virtuelles.

          2. Objets synthétiques

          3. Les objets synthétiques englobent une importante partie de l'imagerie par ordinateur. Ces objets sont décrits de façon paramétrique, suivant un modèle que l'on peut diviser en 4 parties:

            * la description synthétique du visage et du corps humain
            * l'animation des champs du visage et du corps
            * le codage dynamique et statique du maillage avec les textures
            * le codage des textures suivant les vues
            1. Animation du visage

            2. L'animation d'un visage se fait à partir d'un modèle ayant une expression neutre (FDP: Facial Definition Parameter) contrôlé par une série de paramètres contenus dans le FAP (Facial Animation Paramètre). Pour animer un visage, il suffira donc de télécharger le modèle, et d'envoyer les paramètres contrôlant le mouvement du visage qui se traduiront alors sur le visage neutre à l'aide d'un système prévu à cet effet par MPEG4 (FIT: Face Interpolation Technique). Ce système possède l'avantage de n'avoir besoin que d'un visage neutre permettant d'une part d'accélérer la formation des mouvements, et d'autre part de pouvoir en créer de nouveau sans avoir de modèle d'expression prédéfini.

              La partie du standard relative à l'animation des visages permet d'envoyer des paramètres de calibration et d'animation des visages synthétiques. Ces modèles ne sont pas standardisés par la norme MPEG4, seuls les paramètres le sont:

              - définition et codage des paramètres d'animation
              - positions et orientations des points caractéristiques (points-clefs) pour l'animation du maillage (modélisation 'fils-de-fer') du visage
              - configuration des lèvres correspondant aux phonèmes de la parole
              - positions 3D des points caractéristiques
              - calibration du maillage 3D pour l'animation
              - carte des textures du visage
              - caractéristiques personnelles
              - codage des textures du visage
            3. Animation du corps

            4. La technologie d'animation du corps proviendra directement de celle du visage, afin de garder l'esprit de standardisation de la norme MPEG4.

            5. Animation des maillages 2D

            6. Le maillage 2D est une partition d'un espace 2D par des polygones eux même référencés par une liste de nœuds. La norme MPEG4 utilise uniquement le type de maillage triangulaire, longtemps utilisé pour la représentation d'objets 3D. Ainsi, la modélisation par maillage triangulaire peut être considérée comme la projection d'un maillage 3D sur une image plane, dont voici un exemple:

              MPEG4 a voulu utiliser un maillage dynamique triangulaire pour conserver la facilité de manipulation et les multiples fonctionnalités qu'offre cette solution pour les objets 3D comme:

              • pour la manipulation d'objet vidéo:
              • - améliorer le réalisme des scènes
                - modifier ou remplacer des objets
                - rendre plus robuste l'interpolation spatio-temporelle lors de la reconstruction des images (en cas de pertes d'information)
              • pour la compression:
              • - le maillage permet d'augmenter le taux de compression avec un faible taux d'erreur
              • Pour le codage des maillages 2D à structure implicite:
              • - prédiction basée sur le maillage et transfiguration de texture animée
                - modélisation 2D de Delaunay ou maillage régulier avec suivi de mouvement pour les objets animés
                - prédiction de mouvement et suspension de transmission des textures avec les maillages dynamiques
                - compression géométrique pour les vecteurs de déplacement
                - compression de maillage 2D à reconstruction implicite de la structure et du décodeur

               
            7. Echelonnage en fonction des vues
            8. En fonction de la façon dont on regarde une scène, toutes les informations ne sont pas nécessaires. L'échellonnage permet de sélectionner uniquement la partie utile de l'information, et donc de transférer une masse d'information considérablement réduite entre la base de données et l'utilisateur, données qui seront traitées sous cette forme réduite au codage et au décodage( compression ). Cette méthode est de plus applicable aussi bien avec les ondelettes qu'avec le codeur DCT.
            9. Codage des formes et de la transparence
              • Le codage des formes sera supporté dans l'assistance à la description et à la composition des images et des vidéos conventionnelles aussi bien qu'à celles des objets vidéo. Les applications bénéficiant des cartes binaires de formes sont surtout les représentations d'images basées sur le contenu pour les images des bases de données, des jeux interactifs, la surveillance et l'animation. Des techniques sont fournies pour permettre un codage efficace des formes binaires. Une carte de transparence binaire définit si un pixel appartient ou non à un objet.
              • codage des formes en 'niveaux de gris' ou en 'transparence'
              • une carte 'alpha' définit la transparence d'un objet, qui n'est pas nécessairement uniforme. Des cartes de transparence multi-niveaux sont fréquemment utilisées pour superposer les différents 'calques' des séquences d'images. D'autres applications bénéficiant des cartes binaires de transparence sont les représentations d'images basées sur le contenu pour les images des bases de données, des jeux interactifs, la surveillance et l'animation. Des techniques efficaces sont prévues, permettant un codage efficace aussi bien en niveaux de gris qu'en transparence. Une carte de transparence binaire définit si un pixel appartient ou non à un objet. Une carte des niveaux de gris définit la transparence exacte de chaque pixel.
        3. Les outils de MPEG4

        4. Le standard visuel de la norme MPEG4 permettra de coder des images et des vidéos avec des scènes synthétiques créées par ordinateur. A cette fin, le standard visuel contiendra aussi bien des outils et des algorithmes supportant le codage d'image réelles et de vidéos que des outils supportant la compression de paramètres synthétiques 2D et 3D (maillages, textes, …).

          Voici un aperçu des fonctionnalités qui seront supportées par les différents outils et algorithmes du standard visuel de la norme MPEG4.
           

          1. Fonctionnalités supportées par les outils de MPEG4
            1. Fonctionnalités conventionnelles et basées sur le contenu

            2. Le schéma ci dessous explique la différence entre un codeur VLBV, et un codeur MPEG4 tenant compte de l'aspect basé sur le contenu:

              Les deux codeurs présentent de nombreuses similitudes, mais le codeur basé sur le contenu possède une extension pour la gestion des formes(shape) et de la transparence.

              Avantages des fonctionnalités basées sur le contenu:

              - codage des images et de la vidéo basé sur le contenu pour permettre un décodage et une reconstruction adaptés à chaque type d'objet vidéo.- accès aléatoire au contenu des séquences vidéos pour permettre des fonctionnalités telles que la pause, l'avance et le retour rapide.- accroissement des possibilités de manipulation du contenu des séquences vidéos pour permettre des fonctionnalités telles que les déformations de textes, textures, images et séquences vidéos synthétiques ou naturelles lors de la reconstruction du contenu de la vidéo.
            3. Adaptabitité du codage des "objets vidéo"

            4. MPEG4 code tous les types d'images (images naturelles rectangles ou objets à contours complexes). L'adaptabilité de ce codage vient des préférences qu'on peut lui donner en fonction des besoins, comme par exemple:

              - réduction de la complexité du décodeur, et donc réduction de la qualité pour des images dont la qualité n'est pas primordiale.

              - réduction de la résolution pour une utilisation en petite taille de grands objets

              - réduction de la résolution temporelle : séquence vidéo lue avec moins d'images par secondes

              - réduction de la qualité sans perte de taille ou de cadence

              -...

              Le but du codage MPEG4 étant de donner la possibilité à n’importe quel utilisateur les mêmes possibilités d’utilisation, quelles que soient ses capacités matérielles, la norme est donc faite de manière à pouvoir s’adapter aux besoins et aux exigences de l’utilisateur. Ainsi, l’adaptabilité de la norme se fait sur différents champs :
              • Adaptabilité de la complexité au niveau de l'encodeur pour permettre aux encodeurs de complexité plus ou moins élevée de générer un flux de données valide pour une texture, image ou vidéo donnée.
              • Adaptabilité de la complexité au niveau du décodeur pour permettre à un flux de données représentant une texture, image ou vidéo d'être décodé par des décodeurs de niveaux de complexité différents. La qualité de la reconstruction est, en général, relative à la complexité du décodeur utilisé. Ceci pourrait entraîner le fait que des décodeurs moins puissants ne puissent décoder qu'une partie du flux de données.
              • Adaptabilité spatiale qui permet aux décodeurs de décoder un sous-ensemble du flux de données global généré par l'encodeur pour reconstruire et afficher les textures, images et vidéos à une résolution spatiale plus faible. Pour les textures et images fixes, un maximum de 11 niveaux d'échelonnage spatial sera supporté. Pour les séquences vidéo, un maximum de trois niveaux sera supporté.
              • Adaptabilité temporelle pour permettre aux décodeurs de décoder un sous-ensemble du flux de données global généré par l'encodeur pour reconstruire et afficher une séquence vidéo à une résolution temporelle plus faible. Un maximum de trois niveaux sera supporté.
              • Adaptabilité qualitative qui permet de séparer un flux de données en un certain nombre de couches de façon à ce que la combinaison d'un sous-ensemble de ces couches puisse être décodée en un signal significatif. Cette division au sein du flux de données peut s'effectuer aussi bien au cours de la transmission que dans le décodeur. La qualité de reconstruction est, en général, relative au nombre de couches utilisées pour le décodage et la reconstruction.
              Cette adaptabilité permettra à tous les utilisateurs du réseau d'avoir accès aux applications temps-réel quelle que soit la configuration de leur machine (surtout si celle-ci est limitée).
            5. L’interaction

            6. MPEG4 permet à l’utilisateur de ne plus être passif. L’utilisateur gère les informations qu’il désire.

              Il y a deux types d’interactions :

              • Celle du client
              • Celle du serveur
              Le but est de permettre au client de pouvoir supprimer des informations qu’il ne désire pas ou bien d’accéder à une surcharge d’information (ex : changement de langage…). En outre, l’utilisateur peut modifier les attributs de la scène en changeant la position des objets, les rendant visibles ou invisibles, en changeant la police de caractère, la couleur ou encore le volume sonore d’un acteur de la scène. (par exemple un acteur peut être isolé dans une scène, il sera possible d’isoler également ses dires et de supprimer tout autre source sonore.). Du côté du serveur, son action peut permettre par exemple de changer de publicité au cours d’un match de foot automatiquement; il peut accéder aux mêmes données que le client, mais peut se réserver le droit d’empêcher certaines interactions.
            7. Les droits de propriétés intellectuelles

            8. MPEG4 traite le problème des droits de propriétés intellectuelles par insertions dans les objets d'un code d'identification (IPI) donnant des informations sur le contenu, le type du contenu et les droits attenant à l'objet en question. Les données contenues dans l'IPI et associées à chaque objet peuvent différer même pour des objets appartenant à une même image (par ex: droits libres sur le fond, mais restreint sur le personnage). L'insertion de l'IPI au moment du codage implique également l'insertion des mécanismes de protection équivalent aux droits sur l'image (protection contre les copies, facturation,...).

              "Pour réaliser une protection efficace, les mécanismes utilisés sont très complexes et sont développés sous le titre de IPMP"...

            9. Informations contenues dans les objets

            10. MPEG4 permettra aussi d'attacher aux objets des informations complémentaires sur eux et leur contenu. Ces informations (OCI) pourront être envoyées textuellement en même temps que les objets, et pourront être classifiées suivant des tables prédéfinis même en dehors de la norme.

            11. Les formats supportés:
            12. - taux de transfert: entre 5 kbits/s et 4 Mbits/s

              - formats: vidéo progressive et interlacée

              - résolutions: du format sub-QCIF au format TV

            13. Efficacité de la compression:
            14. - compression efficace de la vidéo quel que soit le taux de transfert.

              - compression efficace des textures pour le plaquage de textures sur les maillages 2D et 3D.

          2. Les outils de MPEG-4 version 1

          3. MPEG4 fournit un large et riche éventail d'outils pour le codage des objets audiovisuels. Dans le but de permettre une implémentation effective du standard, des sous ensembles des outils Système, Vidéo et Audio de MPEG4 ont été identifiés afin de n'être utilisés que pour des applications spécifiques. Ces sous ensembles, appelés "profils", limitent l'ensemble d'outils qu'un codeur aura à implémenter. Pour chacun de ces profils, un ou deux "niveaux" ont été mis en place pour restreindre la complexité de calcul. L'approche est similaire à celle de MPEG2, où la plus connue des combinaisons Profil/Niveaux est : "Profil principal @ Niveau principal".

            Une combinaison "Profil@Niveau" permet :

            • à un programmeur de codeur de n'implémenter que les sous ensembles du standard dont il a besoin, tant qu'il maintient la compatibilité avec d'autres outils MPEG4 construit sur la même combinaison.
            • De tester si ce module MPEG4 respecte le standard (test de la conformité)
            Les profils existent pour différents types de médias (audio, vidéo et graphiques) et pour la description de scène. MPEG ne conseille pas de procéder à des combinaisons de ces profils mais toutes les précautions ont été prises pour que les différents types de médias se complètent aisément.
          4. Profils visuels

          5. La partie visuelle du standard fournit des profils pour le codage des contenus visuels naturels, synthétiques et hybride naturel/synthétique. Il y a en tout cinq profils pour le visuel naturel :

            • Le profil visuel simple fournit un codeur, efficace et robuste aux erreurs, d'objets vidéo rectangulaires, adapté pour les applications de réseaux mobiles, tels que PCS et IMT2000.
            • Le profil visuel simple adaptable ajoute au précédent un support pour coder des objets adaptables au niveau temporel et spatial. Il est très utile pour les applications qui fournissent des services sur plus d'un niveau de qualité à cause du débit ou des possibilités limitées du décodeur, par exemple une application Internet.
            • Le profil visuel 'noyau' ajoute au profil visuel simple un support pour coder des objets adaptables de forme arbitraire et temporaires. Il est très utile pour les applications telle que celles qui fournissent une interactivité avec le contenu relativement simple (applications multimédias sur Internet).
            • Le profil visuel principal ajoute au profil précédent un support de codage pour les sprites interlacés et semi-transparents. Il est utile pour les applications ludiques et interactives de grande qualité comme sur DVD par exemple.
            • Le profil visuel N-Bit ajoute un support pour coder les objets qui ont des profondeurs pixelliques de 4 à 12 bits. Il est adapté à l'utilisation en vidéo surveillance.
            Les profils pour les contenus visuels synthétiques et hybrides naturel/synthétique sont :
            • Le profil visuel d'animation faciale simple fournit un moyen simple d'animer un modèle de visage, adapté aux applications telles qu'une présentation audio/vidéo pour les malentendants.
            • Le profil visuel adaptable dédié aux textures fournit des outils pour coder des objets images fixes (texturés) aux dimensions adaptables utilisés pour les applications ayant besoin de multiple niveau d'adaptation, tel que le plaquage de texture sur un objet dans un jeu ou bien les caméras numériques haute résolution fixes.
            • Le profil visuel basique d'animation 2D fournit une adaptabilité de l'espace, du SNR et l'animation d'objets fil de fer pour des objets images fixes, ainsi que l'animation simple d'objets visage.
            • Le profil visuel hybride combine les possibilités du profil visuel 'noyau' vu précédemment et décode également plusieurs objets synthétiques et hybrides, objets image fixe à face simple et animés inclus.
          6. Profils audio

          7. Quatre profils audio ont été définis :

            • Le profil parole fournit le HVXC qui est un codeur paramétrique de la parole à très faible débit, un codeur CELP bande étroite/bande large et une interface Text-To-Speech.
            • Le profil synthèse fournit une synthèse par partition utilisant le SAOL et des tables de sons ainsi qu'une interface Text-To-Speech pour produire des sons et de la parole à de très faibles débits.
            • Le profil adaptable est un super ensemble du profil parole. Il est adapté pour le codage adaptable de la musique et de la parole pour les réseaux tels que Internet et le Narrow band Audio DIgital Broadcasting (NADIB). Le débit est compris entre 6 kBits/s et 24 kBits/s avec des bandes larges entre 3.5 et 9 kHz.
            • Le profil principal est un super ensemble très riche de tous les autres profils, contenant des outils pour l'audio naturelle et synthétique.
          8. Profils graphiques

          9. Les profils graphiques définissent quels éléments graphiques et textuels peuvent être utilisés dans une scène. Ces profils sont définis dans la partie Système du standard :

            • Le profil simple graphique 2D fournit seulement les outils du BIFS (Binary Format for Scene Description) nécessaires pour placer un ou plusieurs objets dans une scène.
            • Le profil graphique 2D complet fournit toutes les fonctionnalités graphiques 2D et supporte quelques fonctions comme les graphiques et les textes arbitraires, qui peuvent être en conjonction avec des objets visuels.
            • Le profil graphique complet fournit des éléments graphiques avancés tels que les extrusions et permet de créer une scène avec des lumières sophistiquées. Le profil graphique complet permet des applications telles que des mondes virtuels complexes d'un très haut réalisme.
          10. Les profils de description de scène

          11. Les profils de description de scène, définis dans la partie système du standard, permettent de créer des scènes audiovisuels avec seulement de l'audio, du 2D, du 3D ou du 2D/3D mixé. Le profile 3D est appelé VRML car il optimise l'interaction avec le langage VRML :

            • Le profil de scène audio prévoit un ensemble d'outils du BIFS (Binary Format for Scene Description) pour l'audio seulement. Ce profil supporte des applications de type radio diffusion.
            • Le profil de scène 2D simple fournit seulement les outils du BIFS pour placer un ou plusieurs éléments audiovisuels dans une scène. Ce profil permet de créer des présentations audiovisuelles mais sans possibilité d'interactions. Il peut être utilisé pour des applications type télé diffusion.
            • Le profil de scène 2D complet fournit tous les outils du BIFS nécessaires à la réalisation d'une scène 2D. Ce profil est utilisé pour des applications 2D qui nécessitent une interactivité grande et spécifique.
            • Le profil de scène complet fournit le jeu complet d'outils du BIFS. Ce profil sert à réaliser des applications telles que des mondes 3D virtuels dynamiques et des jeux.
          12. Les profils de description d'objets

          13. Ils comprennent les outils suivants :

            • Outil descripteur d'objet (OD)
            • Outil de synchronisation (SL)
            • Outil d'information sur les objets (OCI)
            • Outil de propriété intellectuelle et de protection (IPMP)
          Actuellement, seul un profil est défini et inclus tous ces outils. La raison principale de la création de ce profil n'est pas de créer des sous ensembles d'outils mais plutôt de leur définir des niveaux. Ceci s'applique spécialement à l'outil de synchronisation des couches, MPEG4 utilisant différentes bases de temps. En introduisant des niveaux, il est alors possible, par exemple, de n'autoriser qu'une seule base de temps.
      2. Problèmes ouvert

      3. MPEG4 est une révolution, tant du point de vue de sa structure physique, que de l'idéologie qui en découle. C'est la base de tout ce qui touchera la communication et le multimédia dans les années à venir, et quand on voit l'explosion de toutes ces technologies, on imagine l'importance d'une telle norme. MPEG4 n'en est qu'à ses débuts, mais ses applications sont vastes et beaucoup de choses on déjà été réalisées.

        Malgré tout, le travail à effectuer est encore long avant d’obtenir des résultats convainquant pour tous les compartiments de la norme. En particulier, il reste deux problèmes majeurs à résoudre pour le codage des vidéos naturelles, à savoir : l'estimation de mouvement et la segmentation de la vidéo en objets, problèmes que nous avons cherché à résoudre au cours de ce projet.
         
         

        Liens utiles :

        Pour en savoir plus sur Mpeg4, vous trouvez un descriptif tres détaillé ICI

        Et si vous voulez vraiment tout savoir sur n'importe quelle norme Mpeg, c'est par LA