10月24日,一年一度的科大訊飛全球1024開發(fā)者節(jié),又與百萬開發(fā)者相約而至。在這場人工智能行業(yè)盛會(huì)上,科大訊飛不僅發(fā)布了多款A(yù)I新品,為AI人才提供展示舞臺(tái),更與行業(yè)專家、生態(tài)伙伴共同探索人工智能技術(shù)的應(yīng)用新場景。
在線上舉辦的《對(duì)話1024-語音合成技術(shù)專題》節(jié)目中,訊飛AI研究院語音合成負(fù)責(zé)人吳明輝,以及訊飛AI資源部音庫產(chǎn)品負(fù)責(zé)人劉晨寧,科普了語音合成技術(shù)的概念、應(yīng)用場景、發(fā)展?fàn)顩r,并介紹了訊飛語音合成技術(shù)的“獨(dú)特之處”。

隨著AI技術(shù)的迅速發(fā)展,人機(jī)交互變得越來越頻繁,“語音合成”成為人機(jī)交互中的重要一環(huán),它可以使人類與計(jì)算機(jī)的交流更加方便。語音合成又稱文語轉(zhuǎn)換(Text-To-Speech),簡稱TTS,是將輸入的文字信息轉(zhuǎn)化為可聽的、連續(xù)的語音輸出的機(jī)器或者系統(tǒng),賦予機(jī)器“能聽會(huì)說”中“說”的能力。而在語音合成技術(shù)領(lǐng)域,科大訊飛一直保持了領(lǐng)跑者的地位。
目前,科大訊飛通過將發(fā)音內(nèi)容、情感、音色進(jìn)行解耦,實(shí)現(xiàn)了對(duì)情感及音色的自由控制和輸出合成語音,讓智能語音更具“人味”,不同的業(yè)務(wù)可根據(jù)自身的特點(diǎn)和應(yīng)用場景進(jìn)行選擇,如教育類場景,可選擇音色知性穩(wěn)重又很有親和力的發(fā)音人;面對(duì)小朋友,發(fā)音人可以更加活潑可愛;新聞播報(bào)場景,理性、利落、清亮聽起來有力量感的聲音則更加合適。
“我們摒棄了主流的基于聲學(xué)模型+聲碼器的兩階段合成方案,直接進(jìn)行端到端建模,從而避免了因?yàn)閮蓚€(gè)模型級(jí)聯(lián)導(dǎo)致的信息損失,并且結(jié)合了無監(jiān)督語音聽感屬性解耦和聽感量化編碼技術(shù),實(shí)現(xiàn)對(duì)語音韻律和情感的精細(xì)化建模。”吳明輝說道。這也是訊飛最新一代合成技術(shù)能達(dá)到能夠媲美真人細(xì)膩情感表達(dá)效果的原因。
如今,訊飛已面向廣大用戶開放了最新的語音合成系統(tǒng),開發(fā)者們和B端客戶可以在訊飛開放平臺(tái)使用,C端用戶下載訊飛有聲APP即可體驗(yàn)。

作為頭部的智能語音技術(shù)企業(yè),科大訊飛在人工智能領(lǐng)域深耕二十三年,始終堅(jiān)持為經(jīng)濟(jì)社會(huì)發(fā)展提供高技術(shù)屏障、高附加值。
在2021年由美國國家標(biāo)準(zhǔn)與技術(shù)研究院組織的全球15個(gè)語種的國際語音識(shí)別大賽OpenASR中,科大訊飛參加了所有15個(gè)語種的22項(xiàng)比賽,全部取得第一。
今年4月,由科大訊飛承建的認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室團(tuán)隊(duì)登頂常識(shí)推理挑戰(zhàn)賽CommonsenseQA 2.0.刷新機(jī)器常識(shí)推理水平世界紀(jì)錄,在讓機(jī)器“能理解、會(huì)思考”上邁出一大步;同月,科大訊飛在第十六屆國際語義評(píng)測大賽(The 16th International Workshop on Semantic Evaluation, SemEval 2022)三項(xiàng)主要賽道中拿下冠軍,標(biāo)志著科大訊飛在多語種語言理解領(lǐng)域持續(xù)進(jìn)階。
從技術(shù)中來,到產(chǎn)品中去,關(guān)鍵技術(shù)快速進(jìn)步的同時(shí),科大訊飛還不斷放大AI的社會(huì)價(jià)值,加速應(yīng)用場景落地。科大訊飛不斷將自己的成熟技術(shù)應(yīng)用到生活中,比如我們?nèi)粘V杏玫降能囕d語音導(dǎo)航、虛擬主播、聽書閱讀。與此同時(shí)在2022年北京冬奧會(huì)上,科大訊飛作為冬奧會(huì)語音轉(zhuǎn)換及翻譯獨(dú)家供應(yīng)商,構(gòu)建了面向冬奧的語音及語言服務(wù)平臺(tái),同時(shí)支持60個(gè)語種語音合成、69個(gè)語種語音識(shí)別、168個(gè)語種機(jī)器翻譯和3個(gè)語種交互理解;研制了便攜式翻譯設(shè)備雙屏翻譯機(jī)、穿戴式翻譯設(shè)備iFLYBUDS耳機(jī)等。

隨著產(chǎn)業(yè)數(shù)字化需求拉動(dòng),我國智能語音市場規(guī)模持續(xù)穩(wěn)定增長,產(chǎn)業(yè)進(jìn)入規(guī)模化深耕期。科大訊飛將持續(xù)加強(qiáng)語音技術(shù)從研發(fā)到規(guī)模化落地的能力,實(shí)現(xiàn)“用人工智能建設(shè)美好世界”的使命。據(jù)了解,而在1024開發(fā)者節(jié)上,科大訊飛還將發(fā)布最新一代合成系統(tǒng)以及虛擬音色技術(shù),讓我們拭目以待。
來源:劉曠
IT時(shí)代網(wǎng)(關(guān)注微信公眾號(hào)ITtime2000,定時(shí)推送,互動(dòng)有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項(xiàng)目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個(gè)人。創(chuàng)客100創(chuàng)投基金對(duì)IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨(dú)特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點(diǎn)。
小何
小何
小何
來自: 【人物】滴滴創(chuàng)始人程維回顧與Uber競爭:中國互聯(lián)網(wǎng)從來沒有輸過--IT時(shí)代網(wǎng)
小何
來自: 少年頭條對(duì)壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時(shí)代網(wǎng)