阿里巴巴通義實驗室語音團隊於24年12月份發佈了語言生成大模型CosyvoiceV2,這個模型的強大之處在於它能夠3秒聲音克隆,並且能夠實現克隆聲音說方言,跨語種復刻等。
CosyvoiceV2的網站:https://funaudiollm,github,io/cosyvoice2/
介紹了CosyVoiceV2的功能和特點
裏面提及可提取中文,英文,日語和韓語的音色並進行二次克隆的功能。
以上爲混合多語言的克隆,可同時輸出多種語言的內容。
帶有感情色彩的克隆音色以及困難句順口溜都可以復刻出來。
在CosyVoiceV2模型出來的第二天,B站上就有up做出來了本地部署版的CosyVoiceV2模型,我在本章中僅作爲介紹和分享。(滿血版)
夸克網盤:https://pan,quark,cn/s/e3775fc74447
百度網盤:https://pan,baidu,com/s/1wyWodBnOR_MrZ3CopCfPIw?pwd=qhqm
下載之後解壓001壓縮包即可
(文件整合包大小總共18.7G,GPU顯存大小建議8G及以上,關於在線版在文章後)
當啓動後等待一會後就會彈出相應的網站
這時候只需要上傳一段3-10s的音頻再輸入音頻裏所說的文字,就可以讓CosyVoiceV2克隆所上傳音頻的音色,最上面的是輸入合成文本,就是你要克隆出來的語音文字,支持長文本克隆,大概500字左右是最好的。
當選中自然語言控制時,輸入instruct文本例如“使用粵語,使用川普”等它就可以輸出相應的克隆語音,CosyVoiceV2模型的方言克隆已經改動的相較於上一個版本成熟了不少,粵語,川普,上海話都比較準確。
那麼以上就是本地部署的CosyVoiceV2模型,非常感謝up主與AI同行的分享。
對於本地部署不了的,通義實驗室也有做一個在線版的網頁供使用,在1月6號所更新的CosyVoiceV2-0.5B
網址爲https://www,modelscope,cn/studios/iic/CosyVoice2-0.5B
所有的排版都和本地部署的沒有區別,不再介紹
關於CosyVoiceV2模型的應用場景主要有
• 智能客服 提供快速、準確的語音合成服務,提升客戶滿意度
• 虛擬助手 用戶可以根據自己的喜好調整語音的情感和語氣,使其更符合個人需求
• 教育與培訓 幫助學生學習外語發音,提供個性化的教學體驗
• 娛樂內容創作 可用於動畫配音、名人模仿秀等,爲創作者提供豐富的創意空間
• 無障礙交流 爲視障用戶生成聽覺友好的語音內容,幫助無法說話的人擁有屬於自己的“聲音”
• 陪伴場景 復刻家人的聲音用於智能助手或車載導航,提供個性化陪伴
• 整蠱朋友(bushi)
注意,這種語言合成工具是明確禁止以下行爲
1. 侵犯他人聲音權益2. 製作虛假或誤導性內容3. 用於詐騙或其他非法活動4. 違背公序良俗或法律法規5. 未經授權的商業使用6. 損害他人名譽或形象7. 濫用技術進行惡意模仿
最後祝大家玩的愉快,如果幫助到你記得雙擊屏幕給我一個免費的贊
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com