繼今年5月公布影片生成工具Veo之後,Google DeepMind稍早公布新版影片生成工具Veo 2,並且推出新版圖像生成工具Imagen 3,另外也推出新一波實驗計畫。
Veo 2主要提高生成結果更符合真實世界的物理作動,以及人類運動時的肢體表現,以及表情細微呈現,藉此增加生成影像的真實性。
此外,Veo 2也加入電影攝影特殊用語,例如可要求生成以低角度平移追蹤鏡位產生影片,或是依照使用者輸入18mm焦段鏡頭產生相應拍攝影像,甚至也能依照淺景深效果產生背景模糊、讓視覺焦點聚焦在人物的畫面。
目前Veo 2最高可生成4K解析度影片,長度最長可達2分鐘,幾乎是OpenAI提出Sora對應最高解析度的四倍,時間長度更超過6倍,另外也能確實遵循使用者所輸入指示,並且依照真實物理表現產生影片,更標榜能減少幻覺產生比例。
[video width="3840" height="2160" mp4="https://mashdigi.com/wp-content/uploads/Veo2_animation.mp4"][/video]
而此次同步推出的新版Imagen 3,則可生成更具構圖感、生成更明亮的影像,更可依照指示產生寫實、印象、抽象或動漫風格等的藝術風格,同時在細節與質感表現更為突出。
Google將從即日起透過Google Labs開放加入等候Veo 2存取權限,預計明年開始應用在YouTube Shorts短影片等服務,而新版Imagen 3則已經在超過100個國家地區佈署,並且透過Google Labs提供圖片生成工具ImageFX使用。
Google Labs也同步推出名為Whisk的新實驗工具,標榜能產生更具表達張力的圖片,其中整合Imagen 3與新版Gemini模型,可透過電腦視覺分析理解方式產生指令描述,並且由Imagen 3產生全新圖像,目前已經在美國境內提供使用。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》