- +1
對(duì)比Sora與國(guó)產(chǎn)視頻模型生成效果后,我對(duì)Sora祛魅了

作者|西梅汁
編輯|星奈
媒體|AI大模型工場(chǎng)
Sora已經(jīng)全量上線一周。
即使Sora鴿了大家將近一年的時(shí)間,但是大家對(duì)這款產(chǎn)品仍是報(bào)有很高期待,一上線服務(wù)器就崩了,不過大家使用體驗(yàn)似乎并不是很好,實(shí)際效果似乎有點(diǎn)差強(qiáng)人意。
不少人抱怨,20美金白花了,生成的視頻效果不如國(guó)產(chǎn)可靈、即夢(mèng)。
難道Sora真的是起了個(gè)的大早,趕了個(gè)晚集?
AI大模型工場(chǎng)最終也是斥巨資沖了會(huì)員,看看Sora和國(guó)產(chǎn)模型的表現(xiàn)到底哪個(gè)更勝一籌。
行動(dòng)勝于空談,不如咱們動(dòng)手來得實(shí)在!直接開整。
一、編輯板塊新亮點(diǎn)
Sora 此次最大的亮點(diǎn)在于,在文、圖生視頻的基礎(chǔ)功能之上引入了多種高級(jí)編輯功能,首先咱們看看Sora這幾個(gè)更新的編輯功能視頻表現(xiàn):
1、Remix(重混)
用戶可以使用 Remix 替換、刪除以及重新構(gòu)想視頻中的元素,我們可以看到視頻中的門和場(chǎng)景都可以被替換或刪除:


2、Re-cut(重新剪輯)
找到并分離出最佳幀,向前或向后延伸它們以完成(新)場(chǎng)景,通過挑選合適的視頻幀,我們可以重新拓展視頻場(chǎng)景:

3、Storyboard(故事板)
在時(shí)間線上組織和編輯視頻的獨(dú)特序列,精確控制視頻的分鏡頭發(fā)展,從而講述新故事:

4、Loop(循環(huán))
使用Loop剪輯并創(chuàng)建無縫循環(huán)的視頻:

5、Blend(混合)
將兩個(gè)視頻合并為一個(gè)無縫剪輯:

6、Style presets(風(fēng)格預(yù)設(shè))
使用預(yù)設(shè)創(chuàng)建和分享激發(fā)你想象力的風(fēng)格,視頻目前支持五種風(fēng)格,Balloon World(氣球世界)、Stop Motion(定格動(dòng)畫)、Archival(檔案材料)、Film Noir(黑白電影)、Cardboard Paper(紙工藝品)。

二、Sora VS 可靈AI、騰訊元寶、即夢(mèng)AI
這部分內(nèi)容主要從文生視頻的角度進(jìn)行測(cè)評(píng),AI大模型工場(chǎng)用同一個(gè)Prompt在不同視頻模型中生成視頻看看他們的表現(xiàn)如何。
1、圣誕探戈場(chǎng)景
Prompt: 美麗圣誕場(chǎng)景,一對(duì)探戈舞者正在跳探戈。
Sora

sora生成的動(dòng)作是認(rèn)真的嗎?咱們可以優(yōu)雅點(diǎn)嘛,不要看我沒學(xué)過探戈就可以拿這種動(dòng)作來糊弄人哎。。。。
下面再看看可靈在同樣的關(guān)鍵詞下生成的關(guān)鍵詞吧。
可靈
可靈生成的圣誕場(chǎng)景和人物跳舞場(chǎng)景都具有協(xié)調(diào)性。同時(shí)人物在大幅度動(dòng)作上,肢體不僅沒有扭曲變形,就連跳舞動(dòng)作也具有連貫性,相比之下AI大模型工場(chǎng)更喜歡可靈生成的場(chǎng)景。

即夢(mèng)
可以看到即夢(mèng)在動(dòng)作上已經(jīng)極力在保持優(yōu)雅了,但是人物手部細(xì)節(jié)部分沒有處理好,女士的手有種無處安放感。

騰訊元寶
元寶生成的場(chǎng)景有一種迪士尼的夢(mèng)幻感,雖然生成的人物動(dòng)作幅度較小,但是可以看到手指這些細(xì)節(jié)方面都沒有歪曲變形。總體來說生成的效果氛圍感十足,但人物AI感比較明顯,缺乏真實(shí)感。

2、浪漫櫻花場(chǎng)景
Prompt:美麗的春日東京城市熙熙攘攘。相機(jī)穿過繁華的城市街道,跟隨幾個(gè)人享受美麗的櫻花天氣并在附近的攤位購(gòu)物。絢麗的櫻花花瓣在風(fēng)中飛舞。
Sora
Sora這部分的語義理解明顯不到位,沒有g(shù)et到漫天櫻花,并且在人物運(yùn)動(dòng)過程中出現(xiàn)了很大的變形情況,視頻主體的兩個(gè)女生頭部變形很嚴(yán)重,前面一個(gè)女生的頭向后轉(zhuǎn)了180度,恐怖片既視感,另外這兩個(gè)女生的衣服也很奇怪,有一種“小孩偷穿大人衣服”的感覺。

可靈
可靈生成的這個(gè)漫天櫻花場(chǎng)景更加夢(mèng)幻,有一種日漫街頭風(fēng),但就是花瓣有點(diǎn)大的像玫瑰了。。。

即夢(mèng)
即夢(mèng)的語義理解方面也明顯不足,同樣沒有表現(xiàn)出漫天櫻花感,甚至在多場(chǎng)景人物的面部識(shí)別上都還不夠精準(zhǔn),人物面部模糊。

騰訊元寶
語義理解方面,騰訊元寶生成的櫻花場(chǎng)景和人物都表現(xiàn)的不錯(cuò),包括鏡頭的轉(zhuǎn)場(chǎng)也沒有絲毫違和感,細(xì)節(jié)上元寶可以說是唯一一個(gè)體現(xiàn)出幾個(gè)人在攤位上購(gòu)物的場(chǎng)景,包括鏡頭切換的也很自然。

3、貓咪捕獵場(chǎng)景
prompt:貓正在住宅區(qū)里奔跑。令人不可思議的是,以貓的視角來看,腳下有草坪,其他的貓正躺著。看樣子它似乎在瞄準(zhǔn)鳥兒呢。
Sora
sora生成的貓咪開始的鏡頭前有些糊感,奔跑姿勢(shì)處理的比較一般,依然可以看到語義理解方面掌握的還不是很全面,住宅區(qū)、鳥兒這些元素都沒有體現(xiàn)出來。

騰訊元寶
元寶這部分同樣明顯理解不夠到位,貓咪的呈現(xiàn)狀態(tài)忽隱忽現(xiàn)的,鏡頭角度也很粗糙。

即夢(mèng)
相比之下,即夢(mèng)這部分的語義理解就很不錯(cuò),場(chǎng)景中小鳥、其他貓咪躺臥都有精準(zhǔn)的表現(xiàn)。甚至可以看到貓咪的鏡頭語言都很強(qiáng)烈。

可靈
可靈在場(chǎng)景上以及鏡頭表現(xiàn)的都很全面,文本內(nèi)容中的元素也都包含了,包括貓咪在運(yùn)動(dòng)中的表情和四肢都沒有出現(xiàn)變形。

有一說一,對(duì)比后發(fā)現(xiàn),雖然Sora在專業(yè)的角度上,確實(shí)有很多功能上的亮點(diǎn),包括編輯上的故事板概念都很不錯(cuò),但可以明顯感受到模型能力跟不上。當(dāng)下國(guó)內(nèi)的AI視頻產(chǎn)品追的很緊,各大廠商都在互相卷,我們已經(jīng)看過太多好的效果了,隨手可應(yīng)付的時(shí)代已經(jīng)回不去了。除了模型能力,用戶也很在乎交互、門檻、性價(jià)比等等,Sora目前不管從哪個(gè)角度來對(duì)比,都沒有什么足夠的優(yōu)勢(shì)。
Sora在算法上面是不太一樣的,但是到現(xiàn)在還沒感覺到Sora的天花板在哪里。官方生成的成品圖也確實(shí)讓人驚艷,但是當(dāng)用戶在實(shí)際操作中還是存在很多壁壘的,至少在門檻上就阻礙了眾多AI新用戶。關(guān)鍵詞和功能面板需要更加復(fù)雜精準(zhǔn)的操作,語義理解程度也不夠精準(zhǔn)。
最后,麻煩Sam哥還我20刀?。。。?/p>
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




