Percée dans la technologie de génération vidéo multimodale, quelles opportunités l'IA Web3 a-t-elle ?

7/9/2025, 10:18:15 AM

Intermédiaire

Cet article analyse les percées dans la technologie de génération vidéo multimodale (telles que l'EX-4D de Byte, Google Veo, etc.) et discute de leur impact profond sur l'économie des créateurs et Web3 AI.

En dehors de la "submersion" de la localisations IA, le plus grand changement dans le secteur de l'IA récemment est la percée technologique dans la génération de vidéos multimodales, qui a évolué pour passer de la prise en charge de la génération de vidéos purement basées sur du texte à une technologie de génération entièrement intégrée combinant texte, images et audio.

Voici quelques exemples de percées technologiques que tout le monde peut expérimenter :

1) ByteDance rend open-source le cadre EX-4D : une vidéo monoculaire se transforme instantanément en contenu 4D à vue libre, avec un taux d'acceptation utilisateur de 70,7 %. Cela signifie que pour une vidéo ordinaire, l'IA peut générer automatiquement des effets de vision sous n'importe quel angle, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle pour y parvenir.

2) Plateforme Baidu "Hui Xiang" : génère une vidéo de 10 secondes à partir d'une image, prétendant atteindre une qualité "de niveau cinéma". Cependant, il reste à voir si cela est exagéré par le marketing jusqu'à la mise à jour de la version Pro en août.

3) Google DeepMind Veo : Peut réaliser une génération de vidéo 4K + synchronisation des sons d'environnement. Le point technologique clé est l'acquisition de la capacité de « synchronisation », car auparavant, il s'agissait d'une combinaison de deux systèmes pour la vidéo et l'audio. Pour atteindre un véritable niveau de correspondance sémantique, des défis significatifs doivent être surmontés, notamment dans des scènes complexes, où la synchronisation des actions de marche dans la vidéo et des sons de pas correspondants doit être abordée.

4) Contenu DouyinV : 8 milliards de paramètres, 2,3 secondes pour générer une vidéo 1080p, coût de 3,67 yuan/5 secondes. Pour être honnête, ce contrôle des coûts est plutôt bon, mais actuellement, compte tenu de la qualité de génération, il reste en deçà face à des scènes complexes.

Pourquoi dit-on que ces cas ont une valeur et une signification significatives en termes de percées dans la qualité vidéo, les coûts de production et les scénarios d'application ?

1. En termes de percées dans la valeur technologique, la complexité de la génération d'une vidéo multimodale est souvent exponentielle. Une image à un seul cadre se compose d'environ 10^6 pixels, et une vidéo doit garantir la cohérence temporelle (au moins 100 images), ainsi que la synchronisation audio (10^4 points d'échantillonnage par seconde), tout en tenant compte de la cohérence spatiale en 3D.

En résumé, la complexité technique n'est pas faible. À l'origine, c'était un super grand modèle s'attaquant à toutes les tâches de front. On dit que Sora a brûlé des dizaines de milliers de H100 pour atteindre des capacités de génération vidéo. Maintenant, cela peut être réalisé par décomposition modulaire et travail collaboratif de grands modèles. Par exemple, l'EX-4D de Byte décompose en réalité des tâches complexes en : module d'estimation de profondeur, module de transformation de point de vue, module d'interpolation temporelle, module d'optimisation de rendu, et ainsi de suite. Chaque module se spécialise dans une tâche puis coordonne à travers un mécanisme.

2. En termes de réduction des coûts : cela implique en fait d'optimiser l'architecture de raisonnement elle-même, y compris une stratégie de génération en couches, où un squelette basse résolution est généré en premier et ensuite le contenu d'imagerie haute résolution est amélioré ; un mécanisme de réutilisation de cache, qui est la réutilisation de scènes similaires ; et une allocation dynamique des ressources, qui ajuste en réalité la profondeur du modèle en fonction de la complexité du contenu spécifique.

Avec cet ensemble d'optimisations, nous obtiendrons un résultat de 3,67 yuan par 5 secondes pour Douyin ContentV.

3. En termes d'impact sur l'application, la production vidéo traditionnelle est un jeu intensif en capital : équipements, lieux, acteurs, post-production ; il est normal qu'une publicité de 30 secondes coûte des centaines de milliers. Maintenant, l'IA compresse tout ce processus en une invite plus quelques minutes d'attente, et peut réaliser des perspectives et des effets spéciaux difficiles à atteindre dans le tournage traditionnel.

Cela transforme les barrières techniques et financières d'origine de la production vidéo en créativité et en esthétique, ce qui pourrait promouvoir un remaniement de l'ensemble de l'économie créatrice.

La question se pose, quelle est la relation entre les changements du côté de la demande de la technologie AI web2 et l'AI web3 ?

1. Tout d'abord, le changement dans la structure de la demande de puissance de calcul. Auparavant, dans l'IA, la compétition était basée sur l'échelle ; celui qui avait plus de clusters de GPU homogènes gagnerait. Cependant, la demande pour la génération de vidéos multimodales nécessite une combinaison diversifiée de puissance de calcul, ce qui pourrait créer un besoin pour de la puissance de calcul distribuée inutilisée, ainsi que pour divers modèles de fine-tuning distribués, algorithmes et plateformes d'inférence.

2. Deuxièmement, la demande pour l'étiquetage des données va également se renforcer. Générer une vidéo de qualité professionnelle nécessite : des descriptions de scène précises, des images de référence, des styles audio, des trajectoires de mouvement de caméra, des conditions d'éclairage, etc., qui deviendront de nouvelles exigences professionnelles en matière d'étiquetage des données. L'utilisation de méthodes d'incitation Web3 peut encourager les photographes, les ingénieurs du son, les artistes 3D et d'autres à fournir des éléments de données professionnels, améliorant ainsi la capacité de génération de vidéos AI avec un étiquetage de données vertical spécialisé.

3. Enfin, il convient de mentionner que lorsque l'IA passe progressivement d'une allocation de ressources centralisée à grande échelle à une collaboration modulaire, cela représente en soi une nouvelle demande pour des plateformes décentralisées. À ce moment-là, la puissance de calcul, les données, les modèles, les incitations, etc. formeront ensemble un volant auto-renforçant, qui à son tour alimentera l'intégration des scénarios web3AI et web2AI.

Déclaration :

Cet article est reproduit de [tmel0211 tmel0211]，Le copyright appartient à l'auteur original [tmel0211] Si vous avez des objections à la réimpression, veuillez contacter Équipe Gate LearnL'équipe le traitera aussi rapidement que possible selon les procédures pertinentes.
Avertissement : Les opinions et les points de vue exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
Les autres versions linguistiques de l'article sont traduites par l'équipe Gate Learn, sauf mention contraire.GateEn aucune circonstance les articles traduits ne doivent être copiés, diffusés ou plagiés.

Calendrier Crypto

Mises à Jour du Projet

Etherex lancera le jeton REX le 6 août.

REX

22.27%

2025-08-06

Rare Dev & Governance Day à Las Vegas

Cardano organisera la Rare Dev & Governance Day à Las Vegas, du 6 au 7 août, avec des ateliers, des hackathons et des discussions en panel axés sur le développement technique et les sujets de gouvernance.

ADA

-3.44%

2025-08-06

Blockchain.Rio à Rio de Janeiro

Stellar participera à la conférence Blockchain.Rio, qui se tiendra à Rio de Janeiro, du 5 au 7 août. Le programme comprendra des discours d'ouverture et des tables rondes avec des représentants de l'écosystème Stellar en collaboration avec les partenaires Cheesecake Labs et NearX.

XLM

-3.18%

2025-08-06

Webinaire

Circle a annoncé un webinaire en direct intitulé « L'ère de la loi GENIUS commence », prévu pour le 7 août 2025, à 14h00 UTC. La session explorera les implications de la nouvelle loi GENIUS adoptée—le premier cadre réglementaire fédéral pour les stablecoins de paiement aux États-Unis. Dante Disparte et Corey Then de Circle dirigeront la discussion sur la manière dont la législation impacte l'innovation des actifs numériques, la clarté réglementaire et le leadership des États-Unis dans l'infrastructure financière mondiale.

USDC

-0.03%

2025-08-06

AMA sur X

Ankr organisera un AMA sur X le 7 août à 16h00 UTC, axé sur le travail de DogeOS dans la construction de la couche d'application pour DOGE.

ANKR

-3.23%

2025-08-06

Articles connexes

Avancé

Qu'est-ce que Tars AI? Explorer le futur de l'IA et de l'intégration Web3

Découvrez comment Tars AI comble le fossé entre l'IA et Web3, offrant des solutions évolutives et des outils innovants pour les applications décentralisées. Apprenez-en davantage sur ses principales fonctionnalités, ses avantages et son fonctionnement.

9/22/2024, 1:16:18 PM

Débutant

Qu'est-ce que les récits Crypto? Top récits pour 2025 (MISE À JOUR)

Memecoins, jetons de repos liquides, dérivés de mise liquide, modularité de la blockchain, Layer 1s, Layer 2s (rollups optimistes et rollups à connaissance nulle), BRC-20, DePIN, robots de trading crypto Telegram, marchés de prédiction et RWAs sont quelques récits à surveiller en 2024.

11/26/2024, 1:38:16 AM

Débutant

Tout ce que vous devez savoir sur GT-Protocole

GT Protocol est l'un des produits d'IA les plus médiatisés de 2024, utilisant une technologie d'IA avancée pour créer des outils de trading d'IA uniques. Il peut être utilisé pour la gestion de portefeuille d'IA, le trading d'IA et les méthodes d'investissement dans les marchés CeFi, DeFi et NFT, aidant les gens à découvrir facilement et à investir dans diverses opportunités Web3. Il a attiré des centaines de millions d'utilisateurs à participer.

9/25/2024, 7:10:21 AM

Intermédiaire

Inventaire de 12 projets d'IA sur le sous-réseau Bittensor

Bien que l'engouement autour de l'IA ne soit pas aussi fort qu'au début de l'année, le fort rebond de Bittensor montre la confiance du marché dans les projets phares de ce secteur. L'ajout de 12 nouveaux sous-réseaux au cours des derniers mois a considérablement stimulé le développement de l'IA et pourrait favoriser de nouveaux projets innovants. Tout en étant attentif au rebond des prix du TAO, il convient également de tenir compte du développement et du potentiel de ses fondamentaux.

8/20/2024, 9:18:10 AM

Avancé

Principes techniques et applications du chiffrement homomorphe complet (FHE)

Le chiffrement homomorphique est une technique cryptographique qui permet d'effectuer des calculs spécifiques directement sur des données chiffrées sans préalablement les déchiffrer. Ce n'est qu'après le déchiffrement final que le résultat en texte clair correct est révélé. L'unicité de cette technologie réside dans sa double capacité à protéger la confidentialité des données et à permettre des données chiffrées "actives" - permettant ainsi un traitement continu des données sous un parapluie sécurisé. En conséquence, le chiffrement homomorphique se présente comme une technologie idéale qui intègre parfaitement la protection de la vie privée avec le traitement des données, trouvant une application généralisée dans un nombre croissant de domaines.

10/24/2024, 3:00:12 PM

Intermédiaire

Qu'est-ce qu'une valorisation entièrement diluée (FDV) en crypto ?

Cet article explique ce que signifie pleinement la capitalisation boursière diluée en crypto et discute des étapes de calcul de la valorisation pleinement diluée, de l'importance de la FDV et des risques liés à la fiabilité de la FDV en crypto.

10/25/2024, 1:37:13 AM

Lancez-vous

Inscrivez-vous et obtenez un bon de

100$