Vidu是北京生數科技有限公司聯合清華大學發布的中國首個長時長、高一致性、高動態性視頻大模型,于2024年4月27日在中關村論壇未來人工智能先鋒論壇上發布,模型采用團隊原創的全球首個Diffusion與Transformer融合的架構U-ViT。
2024年7月,Vidu面向全球上線,核心功能包括參考生視頻、圖生視頻、圖生視頻??缮?秒和8秒視頻,分辨率最高達1080P。上線百天用戶數即破千萬,2025年1月15日為止,是全球增速最快的AI視頻模型。
Vidu自上線以來就致力于解決“一致性”核心難題,Vidu1.5發布“多圖參考”功能,是全球首個發布“多主體一致性”的視頻模型。
Vidu的快速突破源自于團隊在貝葉斯機器學習和多模態大模型的長期積累和多項原創性成果。其核心技術U-ViT架構由團隊于2022年9月提出,早于Sora采用的DiT架構,是全球首個Diffusion與Transformer融合的架構。2023年3月,團隊開源了全球首個基于U-ViT融合架構的多模態擴散模型UniDiffuser,率先完成了U-ViT架構的大規??蓴U展性驗證。
2024年4月27日,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學正式發布中國首個長時長、高一致性、高動態性視頻大模型——Vidu。Vidu是自Sora發布之后全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。
2024年6月6日,Vidu模型能力迭代更新,支持一鍵生成達32秒的視頻、支持音視頻生成、支持Vidu4D生成。
2024年7月30日,生數科技自研視頻大模型Vidu上線。
2024年9月11日,Vidu全球首發“主體參照”功能,一張照片實現主體可控。
2024年9月25日,Vidu正式開放API。
2024年11月13日,Vidu1.5上線,全球首發“多主體一致性”能力,標志著視覺模型進入全新的“上下文”時代。
2025年1月15日,Vidu2.0上線,推動視頻生成走向人人可用的奇點時刻。3月17日晚間,生數科技宣布,旗下視頻大模型產品Vidu正式與美國知名動漫制作工作室Aura Productions達成戰略合作。
參考生視頻:全球首個參考生視頻功能,讓創作的角色、物體、場景等始終保持一致
圖生視頻:基于任意圖片描述您想象的畫面,即刻動態呈現,讓您的創意栩栩如生
文生視頻:用文字描述您想象的畫面,自由表達創意,即刻創作視頻
Vidu開放了參考生視頻、文生視頻、圖生視頻三大核心功能,提供4s和8s兩種時長選擇,分辨率最高達1080P。
Vidu在生成速度、一致性、動態性等方面具備領先優勢,生成一段4秒視頻僅需10秒。
參考生視頻
通過上傳1-3張參考圖,Vidu 1.5可實現對單主體100%的精確控制,同時實現多主體交互控制、主體與場景融合控制,能夠無縫集成人物、道具和場景等元素。
動畫風格
Vidu可以生成效果優異的動畫視頻
錯峰模式
Vidu支持閑時免費生成視頻。