美國時間2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個文字生成視頻模型Sora。據(jù)介紹,Sora可以直接輸出長達(dá)1分鐘的視頻,並且包含高度細(xì)致的背景、複雜的多角度鏡頭,以及富有情感的多個角色等。
目前OpenAI官網(wǎng)上已經(jīng)更新了48個視頻demo,在這些demo中,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻。記者注意到,總體上這些視頻已非常逼真、細(xì)節(jié)炸裂,但在文化方面,還難以原汁原味,只是體現(xiàn)了西方視野下的文化要素。
行駛中的列車窗外偶遇遮擋,車內(nèi)人物倒影短暫出現(xiàn)非常驚艷。
AI想像中的舞龍,西方特點明顯。
雨後東京街頭,潮濕地面反射霓虹燈光影效果堪比RTX ON。
豎屏超近景視角下,這隻蜥蜴細(xì)節(jié)拉滿。
OpenAI表示,正在教AI理解和模擬運動中的物理世界,目標(biāo)是訓(xùn)練模型來幫助人們解決需要現(xiàn)實世界交互的問題。根據(jù)文本提示生成視頻,僅僅是整個計劃其中的一步。目前Sora已經(jīng)能生成具有多個角色、包含特定運動的複雜場景,不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。
據(jù)悉,目前已有一些視覺藝術(shù)家、設(shè)計師和電影製作人(以及OpenAI員工)獲得了Sora訪問權(quán)限。