澳门百家乐官方网站-百家乐官网风云论坛-澳门百家乐官网官方网站-百家乐博彩免费体验金3

清華主頁(yè) - 清華新聞 - 媒體清華 - 正文

語(yǔ)音生成模型VoxCPM開(kāi)源

來(lái)源:科技日?qǐng)?bào)客戶(hù)端 9-24 羅云鵬

記者9月24日獲悉,由面壁智能與清華大學(xué)深圳國(guó)際研究生院人機(jī)語(yǔ)音交互實(shí)驗(yàn)室攜手的新一代語(yǔ)音生成模型VoxCPM于近日開(kāi)源。憑借與真人無(wú)異的模型語(yǔ)音生成、克隆效果以及高效,模型一經(jīng)發(fā)布,迅速獲得來(lái)自國(guó)內(nèi)外的開(kāi)發(fā)者、科研機(jī)構(gòu)的高度認(rèn)可,并登頂HuggingFace全球模型趨勢(shì)榜榜首。

此前,語(yǔ)音合成模型一直因?yàn)槁曇魴C(jī)械生硬、不自然等缺陷被市場(chǎng)詬病,也限制了其應(yīng)用普及的進(jìn)展。隨著大語(yǔ)言模型的成功,語(yǔ)音技術(shù)也逐漸步入大模型時(shí)代,語(yǔ)音生成音色、語(yǔ)氣、自然度提升明顯,語(yǔ)音細(xì)節(jié)更豐富,音質(zhì)逐漸接近真人。

此次開(kāi)源的VoxCPM雖僅有0.5B,但生成的語(yǔ)音在情緒、音色、口音、停頓、韻律等方面表現(xiàn)與真人無(wú)異,達(dá)到了語(yǔ)音合成領(lǐng)域SOTA水平。得益于文本基座的強(qiáng)大能力和大規(guī)模的語(yǔ)音訓(xùn)練數(shù)據(jù),VoxCPM無(wú)論是文本理解和表達(dá)、極少樣本的聲音復(fù)刻,甚至公式及符號(hào)音頻輸出等能力,都展現(xiàn)了出色生成效果。例如,VoxCPM可根據(jù)對(duì)文本內(nèi)容的超強(qiáng)理解,自主選擇合適的聲音、腔調(diào)、韻律風(fēng)格生成音頻,帶來(lái)“聲”臨其境的聽(tīng)覺(jué)體驗(yàn)。

語(yǔ)音相似度、詞錯(cuò)誤率是評(píng)判語(yǔ)音模型的關(guān)鍵指標(biāo)。根據(jù)權(quán)威語(yǔ)音合成評(píng)測(cè)榜單測(cè)試,VoxCPM在詞錯(cuò)率方面達(dá)到極低水平,在音色相似度方面亦表現(xiàn)良好。

此外,VoxCPM可以在家用電腦這類(lèi)極低算力水平的端側(cè)設(shè)備上即可實(shí)現(xiàn)部署,并能實(shí)現(xiàn)高效推理速度,為不同場(chǎng)景下高性能語(yǔ)音合成應(yīng)用的普及提供了基礎(chǔ)。

編輯:李華山

2025年09月25日 19:39:44

相關(guān)新聞

讀取內(nèi)容中,請(qǐng)等待...

最新動(dòng)態(tài)

清華大學(xué)新聞中心版權(quán)所有,清華大學(xué)新聞網(wǎng)編輯部維護(hù),電子信箱: [email protected]
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.