只需要半小時音檔就能學習!百度文字轉語音系統連「口音」都能模仿
只需要半小時音檔就能學習!百度文字轉語音系統連「口音」都能模仿

這幾天AlphaGo跟世界圍棋冠軍柯潔的對決,吸引了全世界的注目,人工智慧(AI)能做的事情越來越多,且正在進行一場天翻地覆的革新,透過深度學習,中國搜尋巨頭百度研發出了一套語音系統,不只可以模仿人聲還能學習不同的「口音」,這項技術正以驚人的速度前進。

連口音都能模仿!Deep Voice 2只需要半小時音檔就能學習

百度曾經推出一套可將語音轉換成文字的系統「SwiftScribe」,三個月前展示了另一套叫「Deep Voice」的文字轉語音系統,所製作出的聲音跟真人幾乎無異,還能幾乎同步的運作,目前最大的缺點,是需要好幾個小時的音檔資料建立範本,且ㄧ次只能學習一種聲音。

本周百度推出「Deep Voice 2」,不只可以模擬人聲,還能學習到一個人聲音細微的差別,駕馭上百種不同口音,最厲害的是,Deep Voice 2只需要半小時的音檔資料就能完成學習;一般讀者較為熟悉的Apple語音助理Siri已經可以做到模仿區域性口音,但Siri每學習一種新的人聲、口音,需要真人錄製上千小時的音檔資料,且工程師還需要花費很長的時間調校。

而Deep Voice 2的運作方式,則是從數百人的說話資料中找出共同特性,接著軟體再根據不同人說話的語調、口音,去調校聲音模型,過程不再需要人工手動。「給它對的資料,他們可以自己學習什麼東西是重要的。」百度AI實驗室研究科學家Andrew Gibiansky表示。

未來電子書的角色都能更有個性

在百度的想像中,除了可以讓語音助理透過不同的聲音增加個性,許多人愛聽的電子書也是一種應用領域,如此一來在聽電子書的時候,每一個角色都會有相對應的情緒、語氣,聽起來也會生動許多。

text-to-speech
百度推出「Deep Voice 2」可以學習上百種不同口音,未來能讓智慧助理聲音更有個性。
圖/ shutterstock

「快速合成不同人聲的能力,對於產品會產生很大的影響,像是語音助理、電子書eBook閱讀器,例如,你電子書中的每一個角色,在聽的時候每一個角色都有不同的聲音個性。」百度於官方部落格中表示。

百度並不是唯一ㄧ家涉略這項領域的科技公司,去年9月,Google的DeepMind部門發佈了一款聲音合成器「WaveNet」,透過深度學習讓聲音的品質比傳統的語音合成系統大大提升;此外也有許多新創公司的加入,上個月加拿大新創Lyrebird,展示了一套只需要一分鐘的聲音檔案,就可以模仿名人聲音的系統。

隨著聲控設備逐漸進入我們的生活,往後要讓你的Siri聽起來像小S或陳奕迅也是不無可能。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓