Google推出創新AI工具Veo 2及Imagen 3，挑戰OpenAI霸主地位

Google近期進一步推動生成式人工智能（GenAI）的革新，日前接連推出多款新產品。最新包括影片生成模型Veo 2及增強版Imagen 3影像模型。此外，Google亦發佈了一款名為「Whisk」的實驗工具，結合了Imagen 3和Gemini的視覺分析能力，目標是挑戰OpenAI在AI影像生成領域的霸主地位。

在香港時間今天（17日）凌晨，Google宣佈推出影片生成工具Veo 2。據介紹，模型能夠製作出多樣化主題和風格的高品質影片，在真實感方面表現突出，能捕捉人類表情和電影效果等細節。其增強的物理和電影學理解能力，使得追蹤鏡頭和廣角構圖等效果更加出色。舉例來說，用戶可以要求某種類型的風格或建議電影效果，Veo 2都能準確滿足要求。Veo 2還能生成高達4K解析度、數分鐘長度的影片。Google強調，Veo 2的4K解析度是OpenAI Sora模型的四倍，影片長度更是其六倍以上。

此外，Google指出，以往的影片生成模型經常出現不必要或錯誤細節，如多出的手指或物體，但Veo 2在這方面更為真實，錯誤發生率較低。此外，Veo 2生成的影片還包含肉眼無法直接看到的SynthID水印，水印的作用在於標識影片為AI生成內容。DeepMind產品副總裁Eli Collins透露，Google將透過其Vertex AI開發者平台首先向相關用戶提供Veo 2。

另外，圖片生成模型Imagen 3也有助更新和增強影像構圖和細節準確性，目前已支持從寫實到抽象的各種風格。此工具已透過Google實驗室的ImageFX工具在全球100多個國家上線，供用戶試驗。

值得一提的是，Google此次還推出了一款全新的實驗工具「Whisk」。資料顯示，「Whisk」結合了Imagen 3和Gemini視覺分析能力，用戶可以選擇載入影像，工具會生成詳細文字描述，再重新混合風格或設計個人化作品，如數碼玩偶或徽章。據介紹，Gemini模型將根據用戶上傳的圖像自動生成詳細文字描述，再將描述傳遞給Imagen 3以生成不同風格圖片。如果用戶對結果滿意，可以收藏或下載圖像；若需進一步調整，可以透過文字輸入更多指令或編輯文字提示進行優化。