許多人仍認為人工智能(AI)生成的語音聽起來“機械感”明顯,但英國倫敦瑪麗女王大學(xué)研究團隊在新出版的《公共科學(xué)圖書館·綜合》雜志上發(fā)表論文指出,AI語音合成技術(shù)已進入新階段,其生成的“克隆語音”或深度偽造聲音,逼真度與真人錄音無異。
圖片來源:物理學(xué)家組織網(wǎng)研究團隊采用當(dāng)前最先進的AI語音合成工具,生成兩類合成語音:一類是基于真人錄音的“克隆”聲音,旨在模仿特定說話者;另一類則由大型語音模型生成,不針對具體個人。參與者被要求辨別聲音的真實性與可信度。
盡管研究未發(fā)現(xiàn)AI聲音存在“超真實效應(yīng)”(即比真人更像真人),但結(jié)果顯示,“克隆語音”的逼真度已與真人聲音不相上下,令人難以分辨。且部分AI生成的聲音在可信度評價中甚至超越了真人錄音。
研究團隊表示,AI語音已滲透日常生活,如Alexa、Siri及各類客服系統(tǒng)。雖然當(dāng)前系統(tǒng)音色仍具機械特征,但自然度接近人聲的AI語音技術(shù)已然成熟。利用商用軟件僅需幾分鐘真人錄音,即可快速、低成本地生成高質(zhì)量聲音克隆,且?guī)缀鯚o需專業(yè)知識。
最新研究顯示,公眾對高仿真語音認知機制的研究迫在眉睫。AI語音技術(shù)的飛速發(fā)展有望給教育、人機交互等領(lǐng)域帶來創(chuàng)新機遇——在這些領(lǐng)域,定制的高質(zhì)量合成語音可增強用戶體驗。但是,合成語音也對倫理、版權(quán)和安全構(gòu)成挑戰(zhàn),尤其在虛假信息、詐騙與身份冒用等方面需加強防范。
本文鏈接:最先進AI工具生成聲音與人聲無異http://www.sq15.cn/show-11-26618-0.html
聲明:本網(wǎng)站為非營利性網(wǎng)站,本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇: 線蟲研究揭示長壽跨代傳遞機制
下一篇: 新方法可同時精確測量粒子位置和動量