聲音更接近人類,Google文字轉語音AI服務再升級
聲音更接近人類,Google文字轉語音AI服務再升級
2018.03.30 | Google

我們即將進入有圖有聲音,卻不一定有真相的時代了!Google推出文字轉語音(Cloud Text-to-Speech)AI服務,將可以用來合成人聲。

文字轉語音服務,運用物聯網設備溝通、有聲書

Cloud Text-to-Speech服務支援12種語言,並可轉換32種聲音。 即使是複雜的文字內容,例如姓名、日期、時間、地址等,Cloud Text-to-Speech也可以立刻發出準確且道地的發音,使用者可以自己調整音調、語速和音量,還支援包含MP3和WAV等多種音檔格式等。美商思科(Cisco)和電信商Dolphin ONE,成為前期用戶。

這服務三大商業應用。第一,是最重要、最具有前瞻性的應用:與電視、汽車與機器等物聯網設備對話溝通。第二為電話語音服務(Interactive Voice Response,IVR)中心提供語音回應系統,並啟用即時自然語言對話功能。第三將文字格式的新聞文章、書籍等媒體內容,轉為Podcast或有聲書等口語形式。

Google 文字轉語音服務.png
在測試過程中,使用者在1到5級的平均意見分數(Mean-opinion-score, MOS)量表中,給予新版美式英文WaveNet語音4.1分,其中有超過20%的人認為比標準的人聲更好,超過70%的人肯定能降低人類語言的隔閡。
圖/ Google

這次推出的Cloud Text-to-Speech服務,是以DeepMind團隊的WaveNet為基礎。WaveNet是一種原始音檔生成模型,運用WaveNet可以把一系列高保真度的聲音轉化為語音,2016年DeepMind團隊推出了第一版的WaveNet,最近團隊又推出升級版WaveNet,較第一版本模型所生成的原始音頻波形快了1000倍,只需50毫秒即可生成一秒鐘的語音訊息,大幅縮短系統文字轉語音的時間, 更接近和真人對話

提供多元機器學習服務,拉攏新手與專家

不過,文字轉語音API僅是Google眾多雲端機器學習服務之一,Google還提供多元的預先訓練好的機器學習訓練模型,如影像辨識API(Vision API)、翻譯API(Translation API)、語音辨識API(Cloud Speech API)與自然語言API(Natural Language API)等。其中影像辨識API相當受歡迎,如韓國線上購物中心Tmon運用影像辨識API,過濾電子商務網站上的影像。

不過,這些雲端人工智慧API服務,雖然非常容易使用,操作門檻不高,但客製化程度相當有限,因此Google還提供可以高度客製化,建構於TensorFlow的基礎上的Google雲端機器學習服務(Google Cloud Machine Learning)或稱為Cloud ML Engine,讓備有AI人才的企業可以專注於開發最佳的機器學習模型。

Google演算法層面的服務,已然清晰。服務層面廣泛,從機器學習入門新手到專家,提供不同操作門檻與客製化程度的工具,一網打盡。

登入數位時代會員

開啟專屬自己的主題內容,

每日推播重點文章

閱讀會員專屬文章

請先登入數位時代會員

看更多獨享內容

請先登入數位時代會員

開啟收藏文章功能,

請先登入數位時代會員

開啟訂閱文章分類功能,

請先登入數位時代會員

我還不是會員, 註冊去!
追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓