“我們為什么要做語音合成?剛才也提到了,讓機器說話是人類千百年來的夢想;而對于一些特殊群體,他們的受教育程度等問題造成了他們獲取現代信息的障礙。如果我們給他們直接提供更自然的語音內容,可以改善他們不能平等享受信息的現狀。”7月26日,負責百度語音合成系統開發工作的李秀林在第52期百度技術沙龍上說。
語音合成也被稱為文語轉換,是將文本轉換成語音的一種技術。在日常生活中,我們已經用到很多使用語音合成技術的產品,例如汽車導航內嵌了語音系統、智能手機的語音助手、讀書軟件等等,這些應用的實現都離不開語音合成。而如今非常火爆的可穿戴智能設備,也為語音技術提供了嶄新的實用空間。本期的百度技術沙龍,李秀林與大家分享了百度在語音合成技術方面的話題和研發成果。
在充滿創新能量的中關村創業大街,每月舉辦的百度技術沙龍成為眾多開發者和技術愛好者們學習、交流、碰撞思維、開拓眼界的最佳平臺,而來自百度的嘉賓講師所帶來的最前沿技術分享往往成為活動的亮點。

負責百度語音合成系統開發工作的李秀林說:“千百年來人們一直在期待著機器能夠開口說話,這就是語音合成。”
百度語音合成:“折衷”的藝術
2013年初,百度就開始進行語音合成技術的研究,歷經一年左右的時間,2014年4月份,百度語音合成正式通過開放平臺對外開放;2014年7月,語音合成技術也成功地應用于百度搜索框這個重量級的應用。
“作為國內搜索行業的領導者,百度在大數據積累、自然語言處理方面有著深厚的底蘊,但在語音合成技術的研發過程中,挑戰仍層出不窮,而不同層面的折衷處理也是技術攻關的難點所在。”李秀林表示。
基于中文發音的語音合成一直是業內技術難點,而針對觀眾所提出的使用HMM框架是否會導致語音合成質量下降的問題,李秀林老師也給出了答案。
據他介紹,中文語音合成需處理多達1400多個帶調的音節,每個音節的前后音連、調連等不同語境又衍生出數百萬的上下文情況。對此,百度靈活應用了語音學和語言學的知識,對上下文情境進行適當分類,縮小特征空間。以聲母的分類為例,根據發音方法和發音位置的不同,聲母的類型可以被從二十幾個壓縮到十幾個甚至幾個的規模。
在開發過程中,百度語音合成系統采用了聲母和韻母作為基本的單元,有效減小了單元量,并借此進一步壓縮特征空間的大小。在此基礎上,錄音語料、錄音規模跟發音者之間、模型訓練的充分性與可拓展性之間、主觀感知與聲學參數之間的折衷處理也獲得了更大的操作空間。
“折衷,其實不是對付做一個(語音合成系統)就可以了;折衷的目標是為了讓語音合成的表現更加卓越。”李秀林說。
擁抱開發者,百度語音全面開放
2014年4月份,百度語音合成正式通過語音開放平臺,向開發者免費開放,開發者可以通過網站獲得相關的技術文檔和開發資料,并以此為基礎更加輕松地開發含有對話系統或者是閱讀信息系統的應用。
“開發者只需要下載SDK,在自己的APP里面用相關的接口,百度的在線系統即可幫助開發者管理數據、機器、網絡等等一系列的問題,開發者可以把精力集中在自己想要展現的功能上。”李秀林說。
在2013年10月月正式向開發者開放后,百度語音平臺已經吸引了包括陌陌、去哪兒、國航等大批移動應用使用。百度語音開放平臺提供的一整套完備的解決方案,讓每一位開發者都能以最低的成本將最先進的語音合成與識別技術整合進自己的產品中。
百度語音合成系統的前端是基于海量語料的自然語言理解技術,實現智能分詞、高精度的多音字處理、準確的韻律層級預測。利用數萬句話的精加工語音庫,通過采用HMM框架和問題集優化,得到了既穩健、又有一定表現力的聲學模型。最后,經過快速單元預選,多層次的代價優化,選出最合適的單元進行拼接。對于開發者來說,百度語音開放平臺為他們的應用帶來了更豐富的應用場景和更開闊的想象空間。
“百度的使命就是讓人們更平等便捷地獲取信息找到所求;通過語音合成技術,我們可以讓信息更符合用戶所求。”李秀林說。
據了解,百度技術沙龍是國內互聯網界最早的技術開放交流活動,由百度組織策劃,至今已經持續舉辦4年。百度技術沙龍致力于以“技術開放”的心態,分享行業領先的技術理念和技術實踐。目前,百度技術沙龍已經成為互聯網行業中高端技術人員的精神家園,有效推動國內互聯網的技術發展與行業創新。?
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。
站長資訊網