Il existe un secteur de l’IA générative dont on entend parler moins souvent mais qui fait des progrès fulgurants depuis ces derniers mois : la génération de vidéo à partir de texte.
Les vidéos générées à partir de texte commencent à atteindre un degré de qualité convaincant et risquent d’avoir un impact sérieux sur tous les métiers liés à la production vidéo.
Pour l’édition de cette semaine, il est temps de faire un point sur les derniers modèles qui ont été lancés, leurs avantages et leur impact potentiel sur les métiers de l’image en général.
Les derniers modèles de génération vidéo
Step-Video-T2V
Step-Video-T2V (ou simplement StepVideo) est un générateur de vidéo en accès libre qui s’est fait particulièrement remarquer pour sa capacité à créer des scènes plus cohérentes que la plupart des modèles concurrents.

Par exemple, il peut générer des scènes avec de nombreux objets et personnes en mouvement, tout en gardant une certaine stabilité. Il peut aussi créer des scènes en affichant du texte à l'arrière-plan, un défi que les autres modèles peinent généralement à relever.
Mais le plus impressionnant, c’est sa capacité à gérer l'anatomie humaine de manière crédible, comme des gymnastes en mouvement ou des personnes jouant de la guitare ou du violon. Ces scènes mettent en évidence une gestuelle très précise, à un tel point que les modèles d’IA peuvent facilement créer des hallucinations, mais StepVideo parvient à conserver la cohérence.
StepVideo ne se limite pas au réalisme et peut aussi générer des vidéos sous forme d’animations, comme par exemple le style Pixar en 3D, comme si nous disposions de notre propre studio Pixar.
Attention cependant, si StepVideo semble prometteur en termes de réalisme, de cohérence et de style, il est nécessaire de le tester davantage et d'évaluer ses performances sur divers benchmarks pour avoir une vision plus complète de ses capacités réelles.
Pippo
Pippo est un modèle d'intelligence artificielle capable de réaliser une reconstruction 3D complète d'un sujet à partir d'une seule photographie.Cette prouesse élimine le besoin de techniques traditionnelles telles que le scan sous différents angles, et le modèle excelle aussi bien avec des portraits qu'avec des photos d’objets.

À partir d'un simple selfie, Pippo génère des vues à 360 degrés, simulant une caméra virtuelle tournant autour du sujet. Il peut même gérer des expressions faciales complexes et reconstituer des angles de vue qui seraient impossibles à capturer avec une caméra physique.
Pippo est également capable de deviner l'apparence du dos d'une personne à partir d'une photo de face, en prolongeant de manière cohérente les motifs des vêtements et la coupe de cheveux. Cette capacité fonctionne même avec des photos prises de profil ou de trois quarts. Enfin, Pippo ne se limite pas aux images fixes : il peut prendre un clip vidéo d'une personne en mouvement et générer automatiquement des vidéos alternatives sous différents angles.
Compte tenu de ces fonctionnalités, les applications potentielles de Pippo sont vastes et peuvent impacter tout ce qui est lié à production vidéo comme le Motion Capture ou les visioconférences.
Le code de Pippo est disponible sur Github sous licence Creative Commons, permettant à chacun de l'entraîner et de l'utiliser sur son propre PC.
Wan2.1
Wan2.1 est un modèle de génération vidéo en accès libre développé par Alibaba. Il est accessible gratuitement et on peut y accéder de plusieurs façons, à savoir la plateforme Hugging Face, le site web WanVideo ou l’installation en local.
Ce modèle peut générer une variété de contenus vidéo, allant de mouvements complexes à des animations abstraites pour une résolution pouvant aller jusqu’à 720p.

La caractéristique principale de Wan2.1 est qu’il se trouve en première position sur le classement VBench, une méthode d’évaluation spécifique aux modèles de génération vidéo. Ainsi, Wan 2.1 est selon cette évaluation le modèle le plus performant à l’heure actuelle, surpassant au passage des modèles propriétaires.
Les exigences minimales en mémoire vidéo sont inférieures à 9 Go de VRAM.De cette façon, il est possible de faire tourner ce modèle sur son propre PC sans forcément avoir besoin des cartes graphiques les plus performantes.
Dynamic concepts
Si les modèles d’IA libre d’accès ont considérablement monté en performance ces derniers mois, les géants technologiques ont également leur mot à dire concernant la génération de vidéos, notamment du côté de Snapchat (appartenant à Meta) avec Dynamic Concepts.
Dynamic Concepts est un nouveau modèle d'intelligence artificielle développé par Snapchat, se distinguant par sa capacité à créer des vidéos à partir d’autres vidéos existantes.
L'une de ses fonctionnalités marquantes est sa capacité à fusionner deux vidéos distinctes en une seule, tout en conservant la fluidité des mouvements originaux. On peut par exemple avoir un personnage d’une vidéo en premier plan, dans un arrière-plan provenant d’une autre vidéo.

Dynamic Concepts permet également de modifier des éléments au sein d'une vidéo existante simplement à l’aide de texte, comme on peut le voir sur l’image ci-dessus avec une scène du Loup de Wall Street détournée de plusieurs façons différentes. On peut constater grâce à ces exemples la précision dans le remplacement des objets.
Et comme si ça ne suffisait pas, Dynamic Concepts est aussi capable de modifier le style visuel d'une vidéo, en changeant la lumière d’une scène ou en appliquant un style artistique (exemple : Studio Ghibli).
Snapchat a publié un article décrivant le modèle, cependant il n’y a pas de code disponible. Il est probable que Dynamic Concepts soit intégré directement dans l'application Snapchat plutôt que d'être rendu librement accessible.
Avantages et limites
Les avantages
Le premier avantage qui est certainement le plus évident est la suppression des barrières techniques. Alors que les logiciels traditionnels nécessitent une certaine expertise, il est désormais possible de créer des vidéos juste avec du texte, permettant à des créatifs de se lancer sans avoir besoin de maîtriser tous les outils.
Autre avantage : le gain de temps et de budget est de l’ordre de 80% par rapport aux méthodes de création de vidéo traditionnelles, et le gain de temps est particulièrement notable pour tout ce qui est lié aux animations qui ont besoin d’une production image par image.
En parallèle, la génération de vidéo par IA permet d’avoir un brouillon sur lequel on peut s’appuyer pour obtenir rapidement ce qu’on veut, et ainsi réduire le nombre de prises nécessaires pour que la vidéo soit aboutie.
Pour finir, l’IA peut être une source d’inspiration en soi. Les outils comme Runway offrent des suggestions pour lutter contre le syndrôme de la “page blanche”, et imiter des effets ou des styles artistiques qui seraient très difficiles, voire impossibles à répliquer manuellement.
Les limites
Malgré tous ces avantages, la génération de vidéo via l’IA reste confrontée à des limites, à commencer par la qualité des vidéos :
- La plupart des modèles peuvent générer des vidéos avec une résolution de 720p (1280 x 720 pixels), ce qui est pratique pour des formats à faible résolution, mais insuffisant pour des formats comme le cinéma qui demande une résolution beaucoup plus élevée.
- Il peut y avoir des artéfacts visuels sur les vidéos, qui nécessitent d’être enlevés manuellement pour avoir une vidéo exploitable.
Pour toutes ces raisons, la qualité des vidéos permet de créer des brouillons, mais l’intervention manuelle est encore nécessaire sur de nombreux formats.
L’industrie de l’IA est également confrontée aux problèmes de droits d'auteur sur les données d'entraînement. Le principe même d’une IA générative est de s’inspirer de contenu déjà existant pour créer du nouveau contenu au risque d’ignorer les droits d’auteur, et certaines entreprises sont déjà attaquées en justice pour ce motif.
Le débat des droits d’auteurs est déjà en cours pour les images, la musique, les livres et même les doublages. Ce n’est qu’une question de temps avant que la production vidéo aborde le sujet.
Webinar gratuit
Nos experts répondent à vos questions sur l'intelligence artificielle !
S'inscrire au Webinaire
