Google近期進一步推動生成式人工智能(GenAI)的革新,日前接連推出多款新產品。最新包括影片生成模型Veo 2及增強版Imagen 3影像模型。此外,Google亦發佈了一款名為「Whisk」的實驗工具,結合了Imagen 3和Gemini的視覺分析能力,目標是挑戰OpenAI在AI影像生成領域的霸主地位。
在香港時間今天(17日)凌晨,Google宣佈推出影片生成工具Veo 2。據介紹,模型能夠製作出多樣化主題和風格的高品質影片,在真實感方面表現突出,能捕捉人類表情和電影效果等細節。其增強的物理和電影學理解能力,使得追蹤鏡頭和廣角構圖等效果更加出色。舉例來說,用戶可以要求某種類型的風格或建議電影效果,Veo 2都能準確滿足要求。Veo 2還能生成高達4K解析度、數分鐘長度的影片。Google強調,Veo 2的4K解析度是OpenAI Sora模型的四倍,影片長度更是其六倍以上。
此外,Google指出,以往的影片生成模型經常出現不必要或錯誤細節,如多出的手指或物體,但Veo 2在這方面更為真實,錯誤發生率較低。此外,Veo 2生成的影片還包含肉眼無法直接看到的SynthID水印,水印的作用在於標識影片為AI生成內容。DeepMind產品副總裁Eli Collins透露,Google將透過其Vertex AI開發者平台首先向相關用戶提供Veo 2。
另外,圖片生成模型Imagen 3也有助更新和增強影像構圖和細節準確性,目前已支持從寫實到抽象的各種風格。此工具已透過Google實驗室的ImageFX工具在全球100多個國家上線,供用戶試驗。
值得一提的是,Google此次還推出了一款全新的實驗工具「Whisk」。資料顯示,「Whisk」結合了Imagen 3和Gemini視覺分析能力,用戶可以選擇載入影像,工具會生成詳細文字描述,再重新混合風格或設計個人化作品,如數碼玩偶或徽章。據介紹,Gemini模型將根據用戶上傳的圖像自動生成詳細文字描述,再將描述傳遞給Imagen 3以生成不同風格圖片。如果用戶對結果滿意,可以收藏或下載圖像;若需進一步調整,可以透過文字輸入更多指令或編輯文字提示進行優化。
我們的電子報內容豐富多彩,從即時新聞到引人深思的評論文章,讓讀者隨時掌握最重要的資訊,並保持參與感。立即訂閱,加入我們的讀者社群,走在時代的尖端。