-
Description
La norme MPEG4 propose une solution radicalement
différente pour le codage des vidéos afin de satisfaire à
tous ses besoins dans les différentes applications qu’elle propose.
Les scènes audiovisuelles sont ainsi composées de plusieurs
objets médias hiérarchisés.
Le schéma suivant donne l'exemple d'une
scène décomposé suivant l'idée de MPEG4:
fig. : exemple d'une scène MPEG4
|
Ainsi, dans l'arborescence de cette hiérarchie,
on trouve:
-
des images fixes (background)
-
des objets vidéos (objets en mouvement sans
background)
-
des objets audio (la voix associée à
l'objet en mouvement)
MPEG4 définit donc précisément
la manière de décrire d’une scène. La description
d'une scène codée par MPEG4 peut être comparée
au langage VRML dans sa structure et ses fonctionnalités.
Description
d’une scène
Une scène audiovisuelle, codée
par MPEG4, est décrite comme un ensemble d'éléments
individualisés. Elle contient des composants "média" simples
regroupés par type. Ces groupes correspondent aux branches d’un
arbre de découpage où chaque feuille représente un
élément simple. Voici un exemple de branche de codage, où
on distingue les feuilles :
-
textes et graphiques
-
mouvements de la bouche et son texte associé
+ animation de la tête
-
son synthétique
Par exemple, si cette branche correspondait à
une personne qui parle, elle serait divisée en feuilles contenant
le fond, la parole et les divers composants graphiques représentant
la personne en train de parler. Une telle construction permet ainsi la
construction de scènes complexes tout en autorisant l'utilisateur
à manipuler qu'une partie des objets. Un objet média peut
donc être associé à une information, comme on associe
ici la parole à la tête d'un personnage.
Voici le schéma de structure d’une scène
MPEG4 :
Fig – Structure d’une scène MPEG-4
|
MPEG4 fournit donc des méthodes de codage
pour les objets individuels (comme nous venons de le voir). La norme permet
également d’optimiser le codage de plusieurs objets dans une scène.
L’information nécessaire à la composition d’une scène
est contenue dans la description de la scène. Celle-ci est codée
et transmise avec les objets média. Ainsi, pour faciliter l’intéractivité,
la description de la scène est codée indépendamment
des primitives "Objets média". Une grande attention est portée
sur l’identification des paramètres relatifs à la scène.
Ces paramètres sont donnés par différents algorithmes
qui codent de façon optimale les objets (cf " motion vectors in
video coding algorithms " pour les objets fixes, et " position of the object
in the scene " pour les mouvements d’objets). MPEG4 autorise la modification
de ces paramètres sans avoir à décoder les objets
média. Pour cela, ils sont placés dans la partie description
de la scène et non avec les objets média.
Plus généralement, MPEG4 standardise
la façon de décrire une scène, en permettant par exemple:
-
de placer un objet n'importe où dans un
système de coordonnées.
-
d'effectuer des transformations géométriques
ou acoustiques sur un objet.
-
de grouper des éléments "média"
simples pour former un composant "média" complexe
-
de modifier les attributs d'un objet en transformant
ses données.
-
de changer, intéractivement, la vue et l'écoute
d'une scène.
Mais quelles sont exactement les informations données
dans la description d’une scène ?
-
La première information donne la façon
de coder un groupement d’objets.
Une scène MPEG4 suit une structure
hiérarchique qui peut être représentée comme
un graphe acyclique (figure ci-dessous). Chaque feuille du graphe représente
un objet média. La structure de l’arbre n’est pas nécessairement
statique ; les feuilles (avec leurs paramètres de positionnement)
peuvent être changées. On peut aussi envisager d’en supprimer,
d’en remplacer ou même d’en ajouter.
-
La deuxième information donne le positionnement
spatial et temporel des objets.
Dans le modèle MPEG4, les objets audiovisuels
sont à la fois spatiaux et temporels. Chaque objet média
a un système de coordonnées locales. Par ce système
il est possible d’attribuer un " état " spatio-temporel et une échelle
à chaque objet. Les objets média sont disposés dans
la scène après avoir subi une transformation du repère
local au repère global, transformation définie par un de
ses parents(cf Fig. ci dessus).
-
La troisième information donne la valeur
qui est attribuée à la sélection.
Chaque nœud et feuille de l’arbre contient
un panel d’informations. Certaines sont accessibles et d’autres restent
fixes. Il est donc possible de les paramètrer à loisir suivant
les informations données par l’acteur et des contraintes définies
par l’auteur.
-
Enfin, la dernière information autorise
une autre transformation pour les objets média.
La structure d’une scène MPEG4 est
fortement influencée par le concept de VRML et ses possibilités
d’interaction. Ceci représente l’ambition majeure de MPEG4.
Interaction
avec les objets "média" dans une scène MPEG4
L'utilisateur visualise en général
des scènes respectant le design de leur auteur. Mais suivant la
liberté que ce dernier autorise, l'utilisateur a la possibilité
d'interagir avec la scène, ce qui lui permet entre autre:
-
de changer le point de vue ou d'écoute d'une
scène (par la navigation au travers de la scène)
-
de déplacer un objet dans une scène
-
de cliquer sur un objet pour obtenir des informations
complémentaires sur l'objet ou lui faire effectuer des actions spécifiques.
-
de sélectionner une langue parmi celles
qui sont proposées
-
d'effectuer beaucoup d'autres actions complexes
comme établir une communication entre deux personnes par un simple
clic de souris….
-
Codage
des objets vidéo (VOP)
-
Vidéo
naturelle
-
Des
outils standards
Les outils servant à représenter
les objets visuels naturels avec MPEG4 doivent provenir d'une technologie
standardisée permettant le stockage, la transmission et la manipulation
de toutes les données de manière simple et efficace. Ces
outils doivent permettre également de décoder et représenter
les images ou les vidéos contenues dans des VO (Vidéo Objects)
et de les associer à d'autres AVO (Audio-Video Objects) pour créer
une scène.
Pour atteindre ce but et éviter d'avoir
une multitude d'applications non conventionnées qui effectueraient
quelques unes de ces fonctions, MPEG4 propose des solutions et des algorithmes,
regroupant la plupart des fonctionnalités demandées par MPEG4
comme pour :
* la compression des images et des vidéos
* la compression des textures mapping pour
les maillages 2D et 3D
* la compression des maillages 2D implicites
* la compression des champs d'animation géométrique
des maillages
* l'accès aléatoire de tous types
de VO
* l'extension des fonctionnalités de
manipulation des images et des séquences vidéo
* le codage des vidéos et des images
basé sur le contenu
* le redimensionnement des objets basé
sur le contenu
* le redimensionnement spatial, temporel et
qualitatif
* la robustesse et la résistance aux
erreurs quel que soit l'environnement
Toutes ces solutions seront fournies dans la partie
visuelle de la norme MPEG4.
-
Structure
des outils de représentation des vidéo "naturelles"
Les algorithmes de codage des images et
des vidéos MPEG4 donneront une représentation rationnelle
des objets vidéo, avec pour but de respecter les fonctionnalités
basées sur le contenu.
Mais MPEG4 devra également supporter
les fonctionnalités déjà fournies par MPEG1 et MPEG2:
la compression efficace des images traditionnelles rectangulaires de différents
formats, la fréquence des images, la profondeur des pixels, le taux
de transfert, et les possibilités de redimensionnement spatiaux,
temporels et qualitatifs. MPEG4 veut supporter les algorithmes permettant
un transfert efficace à très faible taux de transmission
(VLBV: Very Lox Bit-rate Video, entre 5 et 64kBit/s) avec un taux de compression
satisfaisant, une grande résistance aux erreurs, et une faible complexité
pour les applications multimédia temps-réel. Toute ces applications
prévu pour de faible débit devront être aussi efficaces
à haut débit de transfert (HBV : jusqu'à 4MBit/s).
L'idée d'un codage basé sur le
contenu implique que MPEG4 puisse coder et décoder séparément
les différents "objets vidéo" (VO) d'une scène, afin
de permettre une gestion simplifiée de l'intéractivité:
manipulation et représentation des objets vidéo, ainsi que
le mélange entre objets naturels et objets synthétiques (comme
par exemple une scène avec un fond virtuel avec des personnages
réels). Mais les algorithmes supplémentaires nécessaires
à la gestion du codage basé sur le contenu ne devront être
qu'un ensemble additionnel d'outils aux VLBV et HBV déjà
utilisés dans MPEG1 et 2.
-
Schéma
de codage des images et des vidéos par MPEG4
Ci dessous le schéma
de codage des images et de vidéo par MPEG4, qui permet de traiter
les images traditionnelles rectangulaires aussi bien que les formes arbitraires(shape)
d'une séquence.
fig. Schema de codage des images
|
Le principe du codage MPEG4 repose
sur l'utilisation d'une approche basée sur le contenu. La difficulté
étant alors de séparer les objets et le fond d'une scène,
pour ensuite en tirer des avantages pour la compression et les fonctionnalités
supplémentaires que cela entraînera.
Voyons cela à partir d'un
exemple:
Cette image montre bien le concept
de base du codage MPEG4:
- On a isolé le fond
de la séquence et recréé un panoramique du fond de
la scène complète (estimation et compensation de mouvement
par blocs de 8 ou 16 pixels).
- Puis on a extrait du fond le
personnage en mouvement
- On ne transfère alors
qu'une seule fois le fond, et ensuite le joueur en mouvement.
- Le décodeur recrée
ensuite la scène grâce :
- aux paramètres de la
caméra pour le fond
- au joueur envoyé dans
sa position à chaque image
-
Codage
des textures et des images fixes
MPEG4 utilise les algorithmes
basés sur la méthode des ondelettes pour compresser ce type
d'images. En effet, cette compression est très efficace quel que
soit le taux de transfert, tout en conservant ses capacités d'adaptabilité
spatiale et qualitative, ce qui est non négligeable pour résoudre
les problèmes d'intéractivités (notamment pour les
changement de vue) et de texturage des objets 2D et 3D dans les images
virtuelles.
-
Objets
synthétiques
Les objets synthétiques
englobent une importante partie de l'imagerie par ordinateur. Ces objets
sont décrits de façon paramétrique, suivant un modèle
que l'on peut diviser en 4 parties:
* la description synthétique
du visage et du corps humain
* l'animation des champs du visage
et du corps
* le codage dynamique et statique
du maillage avec les textures
* le codage des textures suivant
les vues
-
Animation
du visage
L'animation d'un visage se
fait à partir d'un modèle ayant une expression neutre (FDP:
Facial Definition Parameter) contrôlé par une série
de paramètres contenus dans le FAP (Facial Animation Paramètre).
Pour animer un visage, il suffira donc de télécharger le
modèle, et d'envoyer les paramètres contrôlant le mouvement
du visage qui se traduiront alors sur le visage neutre à l'aide
d'un système prévu à cet effet par MPEG4 (FIT: Face
Interpolation Technique). Ce système possède l'avantage de
n'avoir besoin que d'un visage neutre permettant d'une part d'accélérer
la formation des mouvements, et d'autre part de pouvoir en créer
de nouveau sans avoir de modèle d'expression prédéfini.
La partie du standard relative
à l'animation des visages permet d'envoyer des paramètres
de calibration et d'animation des visages synthétiques. Ces modèles
ne sont pas standardisés par la norme MPEG4, seuls les paramètres
le sont:
- définition et codage
des paramètres d'animation
- positions et orientations des
points caractéristiques (points-clefs) pour l'animation du maillage
(modélisation 'fils-de-fer') du visage
- configuration des lèvres
correspondant aux phonèmes de la parole
- positions 3D des points caractéristiques
- calibration du maillage 3D
pour l'animation
- carte des textures du visage
- caractéristiques personnelles
- codage des textures du visage
-
Animation
du corps
La technologie d'animation
du corps proviendra directement de celle du visage, afin de garder l'esprit
de standardisation de la norme MPEG4.
-
Animation
des maillages 2D
Le maillage 2D est une partition
d'un espace 2D par des polygones eux même référencés
par une liste de nœuds. La norme MPEG4 utilise uniquement le type de maillage
triangulaire, longtemps utilisé pour la représentation d'objets
3D. Ainsi, la modélisation par maillage triangulaire peut être
considérée comme la projection d'un maillage 3D sur une image
plane, dont voici un exemple:
MPEG4 a voulu utiliser un maillage
dynamique triangulaire pour conserver la facilité de manipulation
et les multiples fonctionnalités qu'offre cette solution pour les
objets 3D comme:
-
pour la manipulation d'objet vidéo:
- améliorer le réalisme
des scènes
- modifier ou remplacer des objets
- rendre plus robuste l'interpolation
spatio-temporelle lors de la reconstruction des images (en cas de pertes
d'information)
-
pour la compression:
- le maillage permet d'augmenter
le taux de compression avec un faible taux d'erreur
-
Pour le codage des maillages 2D à
structure implicite:
- prédiction basée
sur le maillage et transfiguration de texture animée
- modélisation 2D de Delaunay
ou maillage régulier avec suivi de mouvement pour les objets animés
- prédiction de mouvement
et suspension de transmission des textures avec les maillages dynamiques
- compression géométrique
pour les vecteurs de déplacement
- compression de maillage 2D
à reconstruction implicite de la structure et du décodeur
-
Echelonnage
en fonction des vues
En fonction de la façon
dont on regarde une scène, toutes les informations ne sont pas nécessaires.
L'échellonnage permet de sélectionner uniquement la partie
utile de l'information, et donc de transférer une masse d'information
considérablement réduite entre la base de données
et l'utilisateur, données qui seront traitées sous cette
forme réduite au codage et au décodage( compression ). Cette
méthode est de plus applicable aussi bien avec les ondelettes qu'avec
le codeur DCT.
-
Codage
des formes et de la transparence
-
Le codage des formes sera supporté
dans l'assistance à la description et à la composition des
images et des vidéos conventionnelles aussi bien qu'à celles
des objets vidéo. Les applications bénéficiant des
cartes binaires de formes sont surtout les représentations d'images
basées sur le contenu pour les images des bases de données,
des jeux interactifs, la surveillance et l'animation. Des techniques sont
fournies pour permettre un codage efficace des formes binaires. Une carte
de transparence binaire définit si un pixel appartient ou non à
un objet.
-
codage des formes en 'niveaux de
gris' ou en 'transparence'
-
une carte 'alpha' définit
la transparence d'un objet, qui n'est pas nécessairement uniforme.
Des cartes de transparence multi-niveaux sont fréquemment utilisées
pour superposer les différents 'calques' des séquences d'images.
D'autres applications bénéficiant des cartes binaires de
transparence sont les représentations d'images basées sur
le contenu pour les images des bases de données, des jeux interactifs,
la surveillance et l'animation. Des techniques efficaces sont prévues,
permettant un codage efficace aussi bien en niveaux de gris qu'en transparence.
Une carte de transparence binaire définit si un pixel appartient
ou non à un objet. Une carte des niveaux de gris définit
la transparence exacte de chaque pixel.
-
Les
outils de MPEG4
Le standard visuel de la norme MPEG4 permettra
de coder des images et des vidéos avec des scènes synthétiques
créées par ordinateur. A cette fin, le standard visuel contiendra
aussi bien des outils et des algorithmes supportant le codage d'image réelles
et de vidéos que des outils supportant la compression de paramètres
synthétiques 2D et 3D (maillages, textes, …).
Voici un aperçu des fonctionnalités
qui seront supportées par les différents outils et algorithmes
du standard visuel de la norme MPEG4.
-
Fonctionnalités
supportées par les outils de MPEG4
-
Fonctionnalités
conventionnelles et basées sur le contenu
Le schéma ci dessous explique la
différence entre un codeur VLBV, et un codeur MPEG4 tenant compte
de l'aspect basé sur le contenu:
Les deux codeurs présentent de nombreuses
similitudes, mais le codeur basé sur le contenu possède une
extension pour la gestion des formes(shape) et de la transparence.
Avantages des fonctionnalités basées
sur le contenu:
- codage des images et de la vidéo
basé sur le contenu pour permettre un décodage et une reconstruction
adaptés à chaque type d'objet vidéo.- accès
aléatoire au contenu des séquences vidéos pour permettre
des fonctionnalités telles que la pause, l'avance et le retour rapide.-
accroissement des possibilités de manipulation du contenu des séquences
vidéos pour permettre des fonctionnalités telles que les
déformations de textes, textures, images et séquences vidéos
synthétiques ou naturelles lors de la reconstruction du contenu
de la vidéo.
-
Adaptabitité
du codage des "objets vidéo"
MPEG4 code tous les types d'images (images
naturelles rectangles ou objets à contours complexes). L'adaptabilité
de ce codage vient des préférences qu'on peut lui donner
en fonction des besoins, comme par exemple:
- réduction de la complexité
du décodeur, et donc réduction de la qualité pour
des images dont la qualité n'est pas primordiale.
- réduction de la résolution pour
une utilisation en petite taille de grands objets
- réduction de la résolution temporelle
: séquence vidéo lue avec moins d'images par secondes
- réduction de la qualité sans
perte de taille ou de cadence
-...
Le but du codage MPEG4 étant de donner la
possibilité à n’importe quel utilisateur les mêmes
possibilités d’utilisation, quelles que soient ses capacités
matérielles, la norme est donc faite de manière à
pouvoir s’adapter aux besoins et aux exigences de l’utilisateur. Ainsi,
l’adaptabilité de la norme se fait sur différents champs
:
-
Adaptabilité de la complexité au
niveau de l'encodeur pour permettre aux encodeurs de complexité
plus ou moins élevée de générer un flux de
données valide pour une texture, image ou vidéo donnée.
-
Adaptabilité de la complexité au
niveau du décodeur pour permettre à un flux de données
représentant une texture, image ou vidéo d'être décodé
par des décodeurs de niveaux de complexité différents.
La qualité de la reconstruction est, en général, relative
à la complexité du décodeur utilisé. Ceci pourrait
entraîner le fait que des décodeurs moins puissants ne puissent
décoder qu'une partie du flux de données.
-
Adaptabilité spatiale qui permet aux décodeurs
de décoder un sous-ensemble du flux de données global généré
par l'encodeur pour reconstruire et afficher les textures, images et vidéos
à une résolution spatiale plus faible. Pour les textures
et images fixes, un maximum de 11 niveaux d'échelonnage spatial
sera supporté. Pour les séquences vidéo, un maximum
de trois niveaux sera supporté.
-
Adaptabilité temporelle pour permettre aux
décodeurs de décoder un sous-ensemble du flux de données
global généré par l'encodeur pour reconstruire et
afficher une séquence vidéo à une résolution
temporelle plus faible. Un maximum de trois niveaux sera supporté.
-
Adaptabilité qualitative qui permet de séparer
un flux de données en un certain nombre de couches de façon
à ce que la combinaison d'un sous-ensemble de ces couches puisse
être décodée en un signal significatif. Cette division
au sein du flux de données peut s'effectuer aussi bien au cours
de la transmission que dans le décodeur. La qualité de reconstruction
est, en général, relative au nombre de couches utilisées
pour le décodage et la reconstruction.
Cette adaptabilité permettra à tous
les utilisateurs du réseau d'avoir accès aux applications
temps-réel quelle que soit la configuration de leur machine (surtout
si celle-ci est limitée).
-
L’interaction
MPEG4 permet à l’utilisateur de ne
plus être passif. L’utilisateur gère les informations qu’il
désire.
Il y a deux types d’interactions :
-
Celle du client
-
Celle du serveur
Le but est de permettre au client de pouvoir supprimer
des informations qu’il ne désire pas ou bien d’accéder à
une surcharge d’information (ex : changement de langage…). En outre, l’utilisateur
peut modifier les attributs de la scène en changeant la position
des objets, les rendant visibles ou invisibles, en changeant la police
de caractère, la couleur ou encore le volume sonore d’un acteur
de la scène. (par exemple un acteur peut être isolé
dans une scène, il sera possible d’isoler également ses dires
et de supprimer tout autre source sonore.). Du côté du serveur,
son action peut permettre par exemple de changer de publicité au
cours d’un match de foot automatiquement; il peut accéder aux mêmes
données que le client, mais peut se réserver le droit d’empêcher
certaines interactions.
-
Les
droits de propriétés intellectuelles
MPEG4 traite le problème des droits
de propriétés intellectuelles par insertions dans les objets
d'un code d'identification (IPI) donnant des informations sur le contenu,
le type du contenu et les droits attenant à l'objet en question.
Les données contenues dans l'IPI et associées à chaque
objet peuvent différer même pour des objets appartenant à
une même image (par ex: droits libres sur le fond, mais restreint
sur le personnage). L'insertion de l'IPI au moment du codage implique également
l'insertion des mécanismes de protection équivalent aux droits
sur l'image (protection contre les copies, facturation,...).
"Pour réaliser une protection efficace,
les mécanismes utilisés sont très complexes et sont
développés sous le titre de IPMP"...
-
Informations
contenues dans les objets
MPEG4 permettra aussi d'attacher aux objets
des informations complémentaires sur eux et leur contenu. Ces informations
(OCI) pourront être envoyées textuellement en même temps
que les objets, et pourront être classifiées suivant des tables
prédéfinis même en dehors de la norme.
-
Les
formats supportés:
- taux de transfert: entre 5 kbits/s et 4
Mbits/s
- formats: vidéo progressive et interlacée
- résolutions: du format sub-QCIF au
format TV
-
Efficacité
de la compression:
- compression efficace de la vidéo
quel que soit le taux de transfert.
- compression efficace des textures pour le
plaquage de textures sur les maillages 2D et 3D.
-
Les
outils de MPEG-4 version 1
MPEG4 fournit un large et riche éventail
d'outils pour le codage des objets audiovisuels. Dans le but de permettre
une implémentation effective du standard, des sous ensembles des
outils Système, Vidéo et Audio de MPEG4 ont été
identifiés afin de n'être utilisés que pour des applications
spécifiques. Ces sous ensembles, appelés "profils", limitent
l'ensemble d'outils qu'un codeur aura à implémenter. Pour
chacun de ces profils, un ou deux "niveaux" ont été mis en
place pour restreindre la complexité de calcul. L'approche est similaire
à celle de MPEG2, où la plus connue des combinaisons Profil/Niveaux
est : "Profil principal @ Niveau principal".
Une combinaison "Profil@Niveau" permet :
-
à un programmeur de codeur de n'implémenter
que les sous ensembles du standard dont il a besoin, tant qu'il maintient
la compatibilité avec d'autres outils MPEG4 construit sur la même
combinaison.
-
De tester si ce module MPEG4 respecte le standard
(test de la conformité)
Les profils existent pour différents types
de médias (audio, vidéo et graphiques) et pour la description
de scène. MPEG ne conseille pas de procéder à des
combinaisons de ces profils mais toutes les précautions ont été
prises pour que les différents types de médias se complètent
aisément.
-
Profils
visuels
La partie visuelle du standard fournit des
profils pour le codage des contenus visuels naturels, synthétiques
et hybride naturel/synthétique. Il y a en tout cinq profils pour
le visuel naturel :
-
Le profil visuel simple fournit un codeur, efficace
et robuste aux erreurs, d'objets vidéo rectangulaires, adapté
pour les applications de réseaux mobiles, tels que PCS et IMT2000.
-
Le profil visuel simple adaptable ajoute au précédent
un support pour coder des objets adaptables au niveau temporel et spatial.
Il est très utile pour les applications qui fournissent des services
sur plus d'un niveau de qualité à cause du débit ou
des possibilités limitées du décodeur, par exemple
une application Internet.
-
Le profil visuel 'noyau' ajoute au profil visuel
simple un support pour coder des objets adaptables de forme arbitraire
et temporaires. Il est très utile pour les applications telle que
celles qui fournissent une interactivité avec le contenu relativement
simple (applications multimédias sur Internet).
-
Le profil visuel principal ajoute au profil précédent
un support de codage pour les sprites interlacés et semi-transparents.
Il est utile pour les applications ludiques et interactives de grande qualité
comme sur DVD par exemple.
-
Le profil visuel N-Bit ajoute un support pour coder
les objets qui ont des profondeurs pixelliques de 4 à 12 bits. Il
est adapté à l'utilisation en vidéo surveillance.
Les profils pour les contenus visuels synthétiques
et hybrides naturel/synthétique sont :
-
Le profil visuel d'animation faciale simple fournit
un moyen simple d'animer un modèle de visage, adapté aux
applications telles qu'une présentation audio/vidéo pour
les malentendants.
-
Le profil visuel adaptable dédié
aux textures fournit des outils pour coder des objets images fixes (texturés)
aux dimensions adaptables utilisés pour les applications ayant besoin
de multiple niveau d'adaptation, tel que le plaquage de texture sur un
objet dans un jeu ou bien les caméras numériques haute résolution
fixes.
-
Le profil visuel basique d'animation 2D fournit
une adaptabilité de l'espace, du SNR et l'animation d'objets fil
de fer pour des objets images fixes, ainsi que l'animation simple d'objets
visage.
-
Le profil visuel hybride combine les possibilités
du profil visuel 'noyau' vu précédemment et décode
également plusieurs objets synthétiques et hybrides, objets
image fixe à face simple et animés inclus.
-
Profils
audio
Quatre profils audio ont été
définis :
-
Le profil parole fournit le HVXC qui est un codeur
paramétrique de la parole à très faible débit,
un codeur CELP bande étroite/bande large et une interface Text-To-Speech.
-
Le profil synthèse fournit une synthèse
par partition utilisant le SAOL et des tables de sons ainsi qu'une interface
Text-To-Speech pour produire des sons et de la parole à de très
faibles débits.
-
Le profil adaptable est un super ensemble du profil
parole. Il est adapté pour le codage adaptable de la musique et
de la parole pour les réseaux tels que Internet et le Narrow band
Audio DIgital Broadcasting (NADIB). Le débit est compris entre 6
kBits/s et 24 kBits/s avec des bandes larges entre 3.5 et 9 kHz.
-
Le profil principal est un super ensemble très
riche de tous les autres profils, contenant des outils pour l'audio naturelle
et synthétique.
-
Profils
graphiques
Les profils graphiques définissent
quels éléments graphiques et textuels peuvent être
utilisés dans une scène. Ces profils sont définis
dans la partie Système du standard :
-
Le profil simple graphique 2D fournit seulement
les outils du BIFS (Binary Format for Scene Description) nécessaires
pour placer un ou plusieurs objets dans une scène.
-
Le profil graphique 2D complet fournit toutes les
fonctionnalités graphiques 2D et supporte quelques fonctions comme
les graphiques et les textes arbitraires, qui peuvent être en conjonction
avec des objets visuels.
-
Le profil graphique complet fournit des éléments
graphiques avancés tels que les extrusions et permet de créer
une scène avec des lumières sophistiquées. Le profil
graphique complet permet des applications telles que des mondes virtuels
complexes d'un très haut réalisme.
-
Les
profils de description de scène
Les profils de description de scène, définis dans
la partie système du standard, permettent de créer des scènes
audiovisuels avec seulement de l'audio, du 2D, du 3D ou du 2D/3D mixé.
Le profile 3D est appelé VRML car il optimise l'interaction avec
le langage VRML :
-
Le profil de scène audio prévoit un ensemble d'outils
du BIFS (Binary Format for Scene Description) pour l'audio seulement. Ce
profil supporte des applications de type radio diffusion.
-
Le profil de scène 2D simple fournit seulement les outils du
BIFS pour placer un ou plusieurs éléments audiovisuels dans
une scène. Ce profil permet de créer des présentations
audiovisuelles mais sans possibilité d'interactions. Il peut être
utilisé pour des applications type télé diffusion.
-
Le profil de scène 2D complet fournit tous les outils du BIFS
nécessaires à la réalisation d'une scène 2D.
Ce profil est utilisé pour des applications 2D qui nécessitent
une interactivité grande et spécifique.
-
Le profil de scène complet fournit le jeu complet d'outils du
BIFS. Ce profil sert à réaliser des applications telles que
des mondes 3D virtuels dynamiques et des jeux.
-
Les
profils de description d'objets
Ils comprennent les outils
suivants :
-
Outil descripteur d'objet (OD)
-
Outil de synchronisation (SL)
-
Outil d'information sur les objets
(OCI)
-
Outil de propriété
intellectuelle et de protection (IPMP)
Actuellement, seul un profil est
défini et inclus tous ces outils. La raison principale de la création
de ce profil n'est pas de créer des sous ensembles d'outils mais
plutôt de leur définir des niveaux. Ceci s'applique spécialement
à l'outil de synchronisation des couches, MPEG4 utilisant différentes
bases de temps. En introduisant des niveaux, il est alors possible, par
exemple, de n'autoriser qu'une seule base de temps.