我國自研視頻大模型面向全球上線

輸入文字描述或上傳圖片，就能生成一段逼真視頻。近日，我國自主研發的通用視頻大模型Vidu面向全球正式上線。據悉，這款視頻大模型開放文生視頻、圖生視頻兩大核心功能，提供4秒和8秒兩種時長選擇，分辨率最高達1080P，生成一段4秒的視頻片段經實測僅需30秒。

20240801de64c1420b074dcb8ffd7f8dba9289ac_XxjdzbC007056_20240801_CBMFN0A001 — 圖為根據文字描述用Vidu生成的視頻畫面。（受訪者供圖）

Vidu由清華大學聯合北京生數科技有限公司共同研發，於今年4月在2024中關村論壇年會上首次發布。清華大學人工智能研究院副院長、北京生數科技首席科學家朱軍介紹，Vidu具有「長時長、高一致性、高動態性」的特點，可根據文字和圖片生成高清視頻，且能保持高流暢、高動態的畫面效果。截至目前，Vidu可支持一次性生成最長32秒的視頻。

「Vidu能模擬真實物理世界，生成細節複雜且符合物理規律的場景，例如合理的光影效果、細膩的人物表情等，還能創造出具有深度和複雜性的超現實主義內容。」朱軍說，對於科幻、西部、浪漫、動畫等多類型電影，Vidu能生成符合對應風格的畫面片段，還能生成影視級特效畫面，如煙霧、炫光等效果。

20240801de64c1420b074dcb8ffd7f8dba9289ac_XxjdzbC007056_20240801_CBMFN0A002 — 圖為根據文字描述用Vidu生成的特效畫面。（受訪者供圖）

據介紹，在動態性方面，Vidu可生成複雜動態鏡頭，支持大幅度、精準的動作生成，能在畫面裡實現遠景、近景、中景、特寫等不同鏡頭的切換，能直接生成長鏡頭、追焦、轉場等效果。

記者從北京生數科技有限公司獲悉，除文生視頻和圖生視頻的兩大基礎功能外，為了給用戶提供更多樣化和個性化的視頻創作體驗，Vidu還上線「動漫風格」和「角色一致性」兩大新功能。在「圖生視頻」板塊中，利用「角色一致性」功能，用戶可上傳人像圖或自定義的角色圖，通過文字描述就可指定圖中角色在任意場景中做任意動作。該功能簡化了視頻製作流程，也提升了創作自由度。

據悉，操作Vidu無需申請，用戶直接使用郵箱註冊即可上手體驗。Vidu的技術突破源於研發團隊在機器學習和多模態大模型方面的長期積累，其核心技術架構由團隊在2022年就提出並持續開展自主研發。