10月24日,一年一度的科大訊飛全球1024開發者節,又與百萬開發者相約而至。在這場人工智能行業盛會上,科大訊飛不僅發布了多款AI新品,為AI人才提供展示舞臺,更與行業專家、生態伙伴共同探索人工智能技術的應用新場景。
在線上舉辦的《對話1024-語音合成技術專題》節目中,訊飛AI研究院語音合成負責人吳明輝,以及訊飛AI資源部音庫產品負責人劉晨寧,科普了語音合成技術的概念、應用場景、發展狀況,并介紹了訊飛語音合成技術的“獨特之處”。
隨著AI技術的迅速發展,人機交互變得越來越頻繁,“語音合成”成為人機交互中的重要一環,它可以使人類與計算機的交流更加方便。語音合成又稱文語轉換(Text-To-Speech),簡稱TTS,是將輸入的文字信息轉化為可聽的、連續的語音輸出的機器或者系統,賦予機器“能聽會說”中“說”的能力。而在語音合成技術領域,科大訊飛一直保持了領跑者的地位。
目前,科大訊飛通過將發音內容、情感、音色進行解耦,實現了對情感及音色的自由控制和輸出合成語音,讓智能語音更具“人味”,不同的業務可根據自身的特點和應用場景進行選擇,如教育類場景,可選擇音色知性穩重又很有親和力的發音人;面對小朋友,發音人可以更加活潑可愛;新聞播報場景,理性、利落、清亮聽起來有力量感的聲音則更加合適。
“我們摒棄了主流的基于聲學模型+聲碼器的兩階段合成方案,直接進行端到端建模,從而避免了因為兩個模型級聯導致的信息損失,并且結合了無監督語音聽感屬性解耦和聽感量化編碼技術,實現對語音韻律和情感的精細化建模。”吳明輝說道。這也是訊飛最新一代合成技術能達到能夠媲美真人細膩情感表達效果的原因。
如今,訊飛已面向廣大用戶開放了最新的語音合成系統,開發者們和B端客戶可以在訊飛開放平臺使用,C端用戶下載訊飛有聲APP即可體驗。
作為頭部的智能語音技術企業,科大訊飛在人工智能領域深耕二十三年,始終堅持為經濟社會發展提供高技術屏障、高附加值。
在2021年由美國國家標準與技術研究院組織的全球15個語種的國際語音識別大賽OpenASR中,科大訊飛參加了所有15個語種的22項比賽,全部取得第一。
今年4月,由科大訊飛承建的認知智能全國重點實驗室團隊登頂常識推理挑戰賽CommonsenseQA 2.0.刷新機器常識推理水平世界紀錄,在讓機器“能理解、會思考”上邁出一大步;同月,科大訊飛在第十六屆國際語義評測大賽(The 16th International Workshop on Semantic Evaluation, SemEval 2022)三項主要賽道中拿下冠軍,標志著科大訊飛在多語種語言理解領域持續進階。
從技術中來,到產品中去,關鍵技術快速進步的同時,科大訊飛還不斷放大AI的社會價值,加速應用場景落地。科大訊飛不斷將自己的成熟技術應用到生活中,比如我們日常中用到的車載語音導航、虛擬主播、聽書閱讀。與此同時在2022年北京冬奧會上,科大訊飛作為冬奧會語音轉換及翻譯獨家供應商,構建了面向冬奧的語音及語言服務平臺,同時支持60個語種語音合成、69個語種語音識別、168個語種機器翻譯和3個語種交互理解;研制了便攜式翻譯設備雙屏翻譯機、穿戴式翻譯設備iFLYBUDS耳機等。
隨著產業數字化需求拉動,我國智能語音市場規模持續穩定增長,產業進入規模化深耕期。科大訊飛將持續加強語音技術從研發到規模化落地的能力,實現“用人工智能建設美好世界”的使命。據了解,而在1024開發者節上,科大訊飛還將發布最新一代合成系統以及虛擬音色技術,讓我們拭目以待。
來源:劉曠
IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。
小何
小何
小何
小何