Đột phá trong công nghệ tạo video đa phương thức, Web3 AI có cơ hội gì?

7/9/2025, 10:18:15 AM
Trung cấp
AICông nghệ
Bài viết này phân tích những bước đột phá trong công nghệ tạo video đa phương thức (như EX-4D của Byte, Google Veo, v.v.) và thảo luận về tác động sâu sắc của chúng đối với nền kinh tế người sáng tạo và Web3 AI.

Ngoài việc "ngâm mình" trong việc địa phương hóa AI, sự thay đổi lớn nhất trong lĩnh vực AI gần đây là những bước đột phá công nghệ trong việc tạo video đa phương thức, đã tiến triển từ việc hỗ trợ tạo video chỉ dựa trên văn bản đến một công nghệ tạo hình tích hợp hoàn toàn kết hợp văn bản, hình ảnh và âm thanh.

Dưới đây là một vài ví dụ về những bước đột phá công nghệ để mọi người trải nghiệm:

1) ByteDance mã nguồn mở framework EX-4D: Video đơn kính lập tức chuyển đổi thành nội dung 4D góc nhìn tự do, với tỷ lệ chấp nhận của người dùng là 70,7%. Điều này có nghĩa là đối với một video thông thường, AI có thể tự động tạo ra hiệu ứng xem từ bất kỳ góc nào, điều này trước đây cần đến một đội ngũ mô hình 3D chuyên nghiệp để đạt được.

2) Nền tảng "Hui Xiang" của Baidu: tạo ra một video 10 giây từ một hình ảnh, tuyên bố đạt được chất lượng "cấp phim". Tuy nhiên, liệu điều này có phải là phóng đại bởi marketing hay không vẫn còn phải chờ xem cho đến khi bản cập nhật Pro vào tháng Tám.

3) Google DeepMind Veo: Có thể đạt được video 4K + tạo ra sự đồng bộ âm thanh môi trường. Điểm nổi bật công nghệ chính là khả năng "đồng bộ hóa" được đạt được, vì trước đây đây là sự ghép nối của hai hệ thống cho video và âm thanh. Để đạt được sự khớp đúng ở mức độ ngữ nghĩa thực sự, cần phải vượt qua nhiều thách thức đáng kể, chẳng hạn như trong các cảnh phức tạp, nơi mà việc đồng bộ hóa các hành động đi bộ trong video và âm thanh bước chân tương ứng cần phải được giải quyết.

4) Nội dung Douyin: 8 tỷ tham số, 2.3 giây để tạo video 1080p, chi phí 3.67 nhân dân tệ/5 giây. Nói thật, việc kiểm soát chi phí này khá tốt, nhưng hiện tại, xét về chất lượng sản xuất, nó vẫn chưa đạt yêu cầu khi gặp các cảnh phức tạp.

Tại sao người ta nói rằng những trường hợp này có giá trị và ý nghĩa đáng kể về những đột phá trong chất lượng video, chi phí sản xuất và các kịch bản ứng dụng?

1. Về mặt đột phá trong giá trị công nghệ, độ phức tạp của việc tạo ra một video đa phương thức thường là theo cấp số nhân. Một hình ảnh đơn lẻ bao gồm khoảng 10^6 pixel, và một video phải đảm bảo tính nhất quán theo thời gian (ít nhất 100 khung hình), cùng với sự đồng bộ hóa âm thanh (10^4 điểm mẫu mỗi giây), trong khi cũng phải xem xét tính nhất quán không gian 3D.

Tóm lại, độ phức tạp kỹ thuật không hề thấp. Ban đầu, đó là một mô hình siêu lớn đối mặt với tất cả các nhiệm vụ. Có thông tin cho rằng Sora đã đốt cháy hàng chục nghìn H100 để đạt được khả năng tạo video. Hiện nay, điều này có thể được thực hiện thông qua sự phân tách theo mô-đun và làm việc hợp tác của các mô hình lớn. Ví dụ, EX-4D của Byte thực sự phá vỡ các nhiệm vụ phức tạp thành: mô-đun ước lượng độ sâu, mô-đun biến đổi góc nhìn, mô-đun nội suy tạm thời, mô-đun tối ưu hóa kết xuất, và nhiều thứ khác. Mỗi mô-đun chuyên về một nhiệm vụ và sau đó phối hợp thông qua một cơ chế.

2. Về việc giảm chi phí: nó thực sự liên quan đến việc tối ưu hóa kiến trúc lý luận, bao gồm một chiến lược sinh lớp, nơi mà một bộ khung độ phân giải thấp được tạo ra trước và sau đó nội dung hình ảnh độ phân giải cao được cải thiện; một cơ chế tái sử dụng bộ nhớ, tức là tái sử dụng các cảnh tương tự; và phân bổ tài nguyên động, thực sự điều chỉnh độ sâu của mô hình dựa trên độ phức tạp của nội dung cụ thể.

Với bộ tối ưu hóa này, chúng tôi sẽ đạt được kết quả là 3.67 nhân dân tệ mỗi 5 giây cho Nội dung Douyin.

3. Về tác động ứng dụng, sản xuất video truyền thống là một trò chơi đòi hỏi vốn đầu tư lớn: thiết bị, địa điểm, diễn viên, hậu kỳ; việc một quảng cáo dài 30 giây tốn hàng trăm nghìn đô la là chuyện bình thường. Bây giờ, AI nén toàn bộ quy trình này chỉ còn một lời nhắc và vài phút chờ đợi, và có thể đạt được những góc nhìn và hiệu ứng đặc biệt mà khó có thể đạt được trong việc quay phim truyền thống.

Điều này biến các rào cản kỹ thuật và tài chính ban đầu của sản xuất video thành sự sáng tạo và thẩm mỹ, điều này có thể thúc đẩy một cuộc tái cấu trúc toàn bộ nền kinh tế người sáng tạo.

Câu hỏi đặt ra là mối quan hệ giữa những thay đổi trong cầu của công nghệ AI web2 và AI web3 là gì?

1. Đầu tiên, sự thay đổi trong cấu trúc nhu cầu về sức mạnh tính toán. Trước đây, trong AI, cuộc cạnh tranh dựa trên quy mô; ai có nhiều cụm GPU đồng nhất hơn sẽ thắng. Tuy nhiên, nhu cầu về tạo video đa phương thức yêu cầu một sự kết hợp đa dạng của sức mạnh tính toán, điều này có thể tạo ra nhu cầu về sức mạnh tính toán nhàn rỗi phân tán, cũng như các mô hình tinh chỉnh phân tán khác nhau, các thuật toán và nền tảng suy diễn.

2. Thứ hai, nhu cầu về gán nhãn dữ liệu cũng sẽ tăng cường. Việc tạo ra một video chuyên nghiệp yêu cầu: mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, quỹ đạo chuyển động của máy ảnh, điều kiện ánh sáng, v.v., sẽ trở thành những yêu cầu gán nhãn dữ liệu chuyên nghiệp mới. Sử dụng các phương pháp khuyến khích Web3 có thể khuyến khích các nhiếp ảnh gia, kỹ sư âm thanh, nghệ sĩ 3D và những người khác cung cấp các yếu tố dữ liệu chuyên nghiệp, nâng cao khả năng tạo video AI với gán nhãn dữ liệu chuyên môn trong các lĩnh vực cụ thể.

3. Cuối cùng, đáng chú ý rằng khi AI dần chuyển từ phân bổ tài nguyên quy mô lớn tập trung sang hợp tác mô-đun, chính nó đại diện cho một nhu cầu mới cho các nền tảng phi tập trung. Vào thời điểm đó, sức mạnh tính toán, dữ liệu, mô hình, động lực, v.v. sẽ cùng nhau tạo thành một bánh đà tự củng cố, điều này sẽ lần lượt thúc đẩy sự tích hợp của các kịch bản web3AI và web2AI.

Tuyên bố:

  1. Bài viết này được đăng lại từ [tmel0211tmel0211],Bản quyền thuộc về tác giả gốc [tmel0211] Nếu bạn có bất kỳ phản đối nào đối với việc in lại, vui lòng liên hệ Đội ngũ Gate LearnĐội ngũ sẽ xử lý nó nhanh nhất có thể theo các quy trình liên quan.
  2. Tuyên bố miễn trừ trách nhiệm: Quan điểm và ý kiến được bày tỏ trong bài viết này là của tác giả và không cấu thành bất kỳ lời khuyên đầu tư nào.
  3. Các phiên bản ngôn ngữ khác của bài viết được dịch bởi đội ngũ Gate Learn, trừ khi có đề cập khác.CổngDưới bất kỳ hoàn cảnh nào, các bài viết đã dịch không được sao chép, phát tán hoặc ăn cắp.

Mời người khác bỏ phiếu

Lịch Tiền điện tử

Cập nhật dự án
Etherex sẽ ra mắt Token REX vào ngày 6 tháng 8.
REX
22.27%
2025-08-06
Ngày Phát Triển và Quản Trị Hiếm ở Las Vegas
Cardano sẽ tổ chức Ngày Phát triển & Quản trị Rare tại Las Vegas, từ ngày 6 đến 7 tháng 8, với các buổi hội thảo, hackathon và thảo luận bàn tròn tập trung vào các chủ đề phát triển kỹ thuật và quản trị.
ADA
-3.44%
2025-08-06
Blockchain.Rio ở Rio De Janeiro
Stellar sẽ tham gia hội nghị Blockchain.Rio, dự kiến diễn ra tại Rio de Janeiro, từ ngày 5 đến 7 tháng 8. Chương trình sẽ bao gồm các bài phát biểu chính và các cuộc thảo luận nhóm có sự tham gia của đại diện hệ sinh thái Stellar phối hợp với các đối tác Cheesecake Labs và NearX.
XLM
-3.18%
2025-08-06
Hội thảo web
Circle đã công bố một hội thảo trực tuyến Executive Insights có tiêu đề "Kỷ Nguyên GENIUS Act Bắt Đầu", dự kiến diễn ra vào ngày 7 tháng 8 năm 2025, lúc 14:00 UTC. Phiên họp sẽ khám phá những tác động của GENIUS Act vừa được thông qua - khung quy định liên bang đầu tiên cho các stablecoin thanh toán tại Hoa Kỳ. Dante Disparte và Corey Then của Circle sẽ lãnh đạo cuộc thảo luận về cách mà luật pháp ảnh hưởng đến đổi mới tài sản kỹ thuật số, sự rõ ràng về quy định, và vị thế lãnh đạo của Hoa Kỳ trong cơ sở hạ tầng tài chính toàn cầu.
USDC
-0.03%
2025-08-06
AMA trên X
Ankr sẽ tổ chức một AMA trên X vào ngày 7 tháng 8 lúc 16:00 UTC, tập trung vào công việc của DogeOS trong việc xây dựng lớp ứng dụng cho DOGE.
ANKR
-3.23%
2025-08-06

Bài viết liên quan

Tất cả những điều bạn cần biết về GT-Giao thức
Người mới bắt đầu

Tất cả những điều bạn cần biết về GT-Giao thức

GT Protocol là một trong những sản phẩm AI được quảng cáo nhiều nhất của năm 2024, sử dụng công nghệ AI tiên tiến để tạo ra các công cụ giao dịch AI độc đáo. Nó có thể được sử dụng cho quản lý danh mục AI, giao dịch AI và các phương pháp đầu tư trong thị trường CeFi, DeFi và NFT, giúp mọi người dễ dàng khám phá và đầu tư vào các cơ hội Web3 khác nhau. Nó đã thu hút hàng trăm triệu người dùng tham gia.
9/25/2024, 7:10:21 AM
FDV là gì trong tiền điện tử?
Trung cấp

FDV là gì trong tiền điện tử?

Bài viết này giải thích ý nghĩa của vốn hóa thị trường pha loãng đầy đủ trong tiền điện tử và thảo luận về các bước tính toán định giá pha loãng đầy đủ, tầm quan trọng của FDV và những rủi ro khi dựa vào FDV trong tiền điện tử.
10/25/2024, 1:37:13 AM
Tương lai của KAIA sau khi thay đổi thương hiệu: So sánh về bố cục và cơ hội của hệ sinh thái TON
Trung cấp

Tương lai của KAIA sau khi thay đổi thương hiệu: So sánh về bố cục và cơ hội của hệ sinh thái TON

Bài viết này cung cấp một phân tích chuyên sâu về hướng phát triển của dự án Web3 Đông Á mới nổi KAIA sau khi cải tổ thương hiệu, tập trung vào định vị khác biệt và tiềm năng cạnh tranh so với hệ sinh thái TON. Thông qua so sánh đa chiều về định vị thị trường, cơ sở người dùng và kiến trúc công nghệ, bài viết cung cấp cho độc giả sự hiểu biết toàn diện về cả KAIA và hệ sinh thái TON, cung cấp cái nhìn sâu sắc về các cơ hội phát triển hệ sinh thái Web3 trong tương lai.
11/19/2024, 3:52:19 AM
Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất
Trung cấp

Sentient: Kết hợp những mô hình AI Mở và Đóng tốt nhất

Mô tả Meta: Sentient là một nền tảng cho các mô hình Clopen AI, kết hợp tốt nhất của cả các mô hình mở và đóng. Nền tảng này có hai thành phần chính: OML và Sentient Protocol.
11/18/2024, 4:12:26 AM
Tars AI là gì? Khám phá Tương lai của AI và tích hợp Web3
Nâng cao

Tars AI là gì? Khám phá Tương lai của AI và tích hợp Web3

Tìm hiểu cách Tars AI kết nối khoảng cách giữa AI và Web3, cung cấp các giải pháp có khả năng mở rộng và các công cụ đổi mới cho các ứng dụng phi tập trung. Tìm hiểu về các tính năng chính, lợi ích và cách nó hoạt động.
9/22/2024, 1:16:18 PM
Nghiên cứu Gate: Sự kiện Web3 và các phát triển công nghệ Tiền điện tử (22-27 tháng 2 năm 2025)
Nâng cao

Nghiên cứu Gate: Sự kiện Web3 và các phát triển công nghệ Tiền điện tử (22-27 tháng 2 năm 2025)

Gate Research (22-27/2/2025): Ngày 21/2/Gate.io Launchpool giới thiệu Rivalz Network (RIZ). Cùng ngày, Bybit đã trải qua một vụ vi phạm bảo mật lớn với khoảng 1,5 tỷ đô la ETH bị đánh cắp. Vào ngày 24 tháng 2, Infini phải đối mặt với việc chuyển tiền bất thường do lỗi hoạt động nội bộ, nhưng người dùng đã bồi thường đầy đủ để bảo vệ tài sản của họ. Vào ngày 25 tháng 2, bản nâng cấp Pectra của Ethereum đã gặp phải rào cản trên testnet Holesky, không đạt được xác nhận cuối cùng, điều này có khả năng trì hoãn việc triển khai mainnet. Ngày 26/2, SEC chính thức kết thúc cuộc điều tra về Uniswap. Cũng trong ngày 26/2, Ondo Finance đã công bố tích hợp với mạng lưới Mastercard.
2/27/2025, 10:58:17 AM
Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500