5月16日消息,騰訊今日正式推出了業內首個實現毫秒級響應的實時生圖大模型——混元圖像2.0(Hunyuan Image2.0),該模型已在騰訊混元官方網站上線,并對外開放注冊體驗。這一創新技術的發布,標志著AI圖像生成領域邁入了一個全新的實時交互時代。
騰訊混元圖像2.0的最大亮點在于其前所未有的生圖速度。相比前代模型,新模型參數量提升了一個數量級,并借助超高壓縮倍率的圖像編解碼器以及全新擴散架構,實現了生圖速度的顯著提升。在同類商業產品每張圖推理速度仍需5到10秒的情況下,騰訊混元圖像2.0已經能夠做到毫秒級響應。這意味著用戶可以在打字或說話的同時,即時看到生成的圖像,徹底改變了傳統“抽卡—等待—抽卡”的圖像生成方式,為用戶帶來了前所未有的流暢體驗。
除了速度上的飛躍,騰訊混元圖像2.0在圖像生成質量上也實現了顯著提升。通過強化學習等先進算法以及引入大量人類美學知識對齊,生成的圖像不僅真實感強,而且細節豐富、可用性高。在圖像生成領域專門測試模型復雜文本指令理解與生成能力的評估基準GenEval上,騰訊混元圖像2.0的準確率超過95%,遠超其他同類模型,展現了其卓越的圖像生成能力。
騰訊混元圖像2.0還引入了多模態大語言模型(MLLM)作為文本編碼器,配合自研的結構化caption系統,能夠深入理解用戶的文本輸入,并精準推測出用戶希望畫面如何表達。即使是一句話中包含的多層含義,模型也能一一拆解并生動呈現。此外,該模型還支持語音直接輸入提示詞,系統將語音自動轉寫為文字后即時生成圖像,這一功能特別適用于直播講解、移動創作等場景。用戶還可以上傳草圖作為參考,模型能自動識別線稿的結構與構圖邏輯,結合提示詞內容補全光影、材質、背景等細節,迅速擴展成圖。