谷歌Gemini音視頻識別實測!以後再也不需要字幕組了?

Gemini 2.5 Pro 是啥

谷歌在前幾天(25年3月25號)發佈了 Gemini 2.5 Pro 模型,綜合排名世界第一,號稱有百萬上下文,後期將會開放 200 萬上下文。最大輸出長度約爲 6 萬 token。


剛發佈時我就快速體驗了一下代碼和散文寫作能力,毫無疑問就我個人體驗而言,Gemini 2.5 Pro 是目前效果最強的。尤其是文章寫作,劇情連貫,措辭合理,不像 DeepSeek R1、Claude 3.7 Thinking 等思考模型,會自我意識過剩導致文章中意象和辭藻堆砌。


不過本文的重點不在此。今天我看到了網絡上有人用 2.5Pro 處理一段多語言視頻的效果展示,於是便想要測試一下 Gemini 對音視頻的理解能力如何、能處理多長的音視頻。

谷歌在 AI Studio 網站給所有人提供免費使用,我立刻開始了測試。結果令我震撼,尤其是測試 4:動漫加字幕!

測試內容

測試主要關注這幾個方面:音頻內容識別、音視頻時間軸、視頻內容理解、音視頻上下文連貫性理解、音效音樂等元素識別。


太長不看,結論:除了中文歌和刁鑽題材(專有詞地獄的動畫、發音人類都很難聽懂的視頻)之外,Gemini 無敵了,可以完美給視頻加字幕!


我準備了下面幾個任務,依次來看看結果吧。以下素材在餵給 AI 之前均已經裁掉字幕,提供給 AI 信息的只有字幕要求以及來源作品名稱,也就是說角色名字和額外劇情信息均爲 Gemini 依靠知識庫腦補的!

  1. 《你想活出怎樣的人生》插曲視頻片段——要求輸出畫面內容、劇情、中文字幕、日文字幕、音效描述

  2. 《你的名字》英文版片頭曲視頻——要求輸出畫面內容、英文字幕、中文字幕、音效描述

  3. 初音未來《Miku》短視頻——要求輸出畫面內容、中日歌詞

  4. 大的來了,《New Game》第一集全部音頻👍——要求輸出中日字幕、音效、根據聲線與上下文推斷說話人名字、OP/ED 中日歌詞

  5. 中日英歌曲各一首,吐字較爲清晰,《Hello World 》- Kizuna AI,《真晝の空の月》- アビドス高等學校対策委員會,《漂亮面對》- 洛天依; 阿良良木健——要求輸出雙語滾動歌詞、每句話的歌唱感情

測試結果

所有結果我都人工檢查過通篇,有錯誤會指出。如果沒指出則代表通篇都正確。
所有的時間軸均精確到 0.01 秒,可以和視頻完美對應,下文不再提及時間軸。

1《你想活出怎樣的人生》

結論:完美完成任務。無任何錯誤。

畫面內容識別↑


↑知識庫豐富度、劇情上下文識別。可以正確認識角色,可以識別安慰劇情。


↑音效和音樂識別


↑嘈雜環境中的語音識別

2 《你的名字》英文版片頭

英語歌詞部分出現個位數識別錯誤,爲同音詞或短語連讀出錯,基本沒有影響漢語意思。其他方面完美完成任務,甚至可以根據電影劇情補充信息,例如“口嚼酒”、“東京街道”等。



↑畫面識別,音效識別



↑根據電影劇情補充畫面描述信息,例如組紐、系守、口嚼酒

3 《Miku》短視頻

視頻鏡頭快速切換的時候,字幕中漏掉了一兩個分鏡。歌詞與音樂節奏識別完美。

4 《New Game》第一集👍

本測試只提供了音頻和作品名稱給 AI。
極個別臺詞沒分清說話人是誰,不過這個要求對於只聽音頻來說有點難了。
角色尖叫的時候,有概率識別不出在叫什麼(有時候成功,有時候只顯示尖叫)。
其他地方完美。


↑語音識別與角色名推斷,即使是初次登場也可以自動推斷髮言角色名。


↑片假名專有名詞自動補充英文、或者直接使用劇中原文(我沒要求它)



↑日語、英語混合 OPED 識別,非常準確。甚至能在角色發言的時候,同時識別臺詞和歌詞(圖 3)


最逆天的,角色默唸的所有短信全都標註了【message】,有的短信甚至沒有上下文可供推測,我懷疑它能識別角色內心獨白時候的迴音效果。

5 中日英三首歌

時間軸全對。日文錯了兩個單詞,英文全對,中文錯了接近一半。這裏直接放結果圖。
日文,只有開頭錯了兩個詞。


英文,全對。


中文,錯一半,不標註了。

能處理多長的視頻

我沒有測試極限長度。但是可以根據 token 使用量大致推算,我在上傳視頻時,爲了方便 AI 處理,將視頻碼率壓縮到了 2Mbps,一分鐘視頻大約佔用 4-6 萬 token。24 分鐘音頻佔用 5 萬 token。

處理一集動漫長度的視頻大約需要 2 萬 token。由此可見,輸入長度並非瓶頸,真正的瓶頸在於輸出長度。如果以動漫視頻的 token 消耗量計算,一次性最長可以處理 60-80 分鐘的音頻。如果是網課視頻,處理時長可能會更短。

不過總的來說,目前來看還是非常夠用的,畢竟在現階段,我們不太可能上傳整部電影。Gemini 這一舉措無疑爲 AI 應用開闢了更廣闊的道路!

結論

看來 AI 的進化超出了我的想象。我還停留在用一堆工作流+人工輔助打軸的認知呢,現在看,AI 來爲日常番、外語網課加字幕,已經可以做到無敵了。甚至可以爲視力障礙者直接描述劇情和畫面。一切都發生得太快了。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com