Tech

Google推出創新AI工具Veo 2及Imagen 3,挑戰OpenAI霸主地位

Dec 19, 2024 11:15 AM
News Image

Google近期進一步推動生成式人工智能(GenAI)的革新,日前接連推出多款新產品。最新包括影片生成模型Veo 2及增強版Imagen 3影像模型。此外,Google亦發佈了一款名為「Whisk」的實驗工具,結合了Imagen 3和Gemini的視覺分析能力,目標是挑戰OpenAI在AI影像生成領域的霸主地位。

在香港時間今天(17日)凌晨,Google宣佈推出影片生成工具Veo 2。據介紹,模型能夠製作出多樣化主題和風格的高品質影片,在真實感方面表現突出,能捕捉人類表情和電影效果等細節。其增強的物理和電影學理解能力,使得追蹤鏡頭和廣角構圖等效果更加出色。舉例來說,用戶可以要求某種類型的風格或建議電影效果,Veo 2都能準確滿足要求。Veo 2還能生成高達4K解析度、數分鐘長度的影片。Google強調,Veo 2的4K解析度是OpenAI Sora模型的四倍,影片長度更是其六倍以上。

此外,Google指出,以往的影片生成模型經常出現不必要或錯誤細節,如多出的手指或物體,但Veo 2在這方面更為真實,錯誤發生率較低。此外,Veo 2生成的影片還包含肉眼無法直接看到的SynthID水印,水印的作用在於標識影片為AI生成內容。DeepMind產品副總裁Eli Collins透露,Google將透過其Vertex AI開發者平台首先向相關用戶提供Veo 2。

另外,圖片生成模型Imagen 3也有助更新和增強影像構圖和細節準確性,目前已支持從寫實到抽象的各種風格。此工具已透過Google實驗室的ImageFX工具在全球100多個國家上線,供用戶試驗。

值得一提的是,Google此次還推出了一款全新的實驗工具「Whisk」。資料顯示,「Whisk」結合了Imagen 3和Gemini視覺分析能力,用戶可以選擇載入影像,工具會生成詳細文字描述,再重新混合風格或設計個人化作品,如數碼玩偶或徽章。據介紹,Gemini模型將根據用戶上傳的圖像自動生成詳細文字描述,再將描述傳遞給Imagen 3以生成不同風格圖片。如果用戶對結果滿意,可以收藏或下載圖像;若需進一步調整,可以透過文字輸入更多指令或編輯文字提示進行優化。

CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image

獨家內容與深入分析

我們的電子報內容豐富多彩,從即時新聞到引人深思的評論文章,讓讀者隨時掌握最重要的資訊,並保持參與感。立即訂閱,加入我們的讀者社群,走在時代的尖端。

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.