亚洲精品久久久久久无码色欲四季 ,国产精品国产三级国产专区53

資訊中心

電話: 0477-8394929
郵箱: ordoswh123@163.com
網(wǎng)址：m.hnjmsy.com.cn

當(dāng)前位置: 首頁 > 資訊中心 > 產(chǎn)業(yè)資訊

清華大學(xué)團(tuán)隊實(shí)現(xiàn)混合語音分離技術(shù) 計算機(jī)學(xué)會像人腦一樣“聽話”了

時間：2024-04-07 10:45 瀏覽：152次

在通勤的地鐵上、嘈雜的餐廳里，廣播聲、音樂聲、周圍人說話聲，似乎都不會妨礙你與同伴進(jìn)行交流。而這，就是大腦在處理聲音信息時發(fā)揮的特殊優(yōu)勢——它可以將注意力集中在感興趣的對話或聲音上，忽略其他無關(guān)的聲音或者噪音。

其實(shí)，早在70多年前，神經(jīng)科學(xué)家就注意到大腦的這種神奇能力，并將其稱為“雞尾酒會效應(yīng)”。

“盡管我們每天都在不知不覺地運(yùn)用大腦這種優(yōu)勢，可以輕松地在混合的聲音中識別特定的目標(biāo)聲音，但要讓計算機(jī)做到這一點(diǎn)卻非常困難?！苯?，清華大學(xué)生物醫(yī)學(xué)工程學(xué)院苑克鑫教授團(tuán)隊聯(lián)合該校計算機(jī)系胡曉林教授團(tuán)隊，基于哺乳動物丘腦和皮層整合多模態(tài)感覺信息的工作原理，構(gòu)建了一款新的腦啟發(fā)AI模型（CTCNet），實(shí)現(xiàn)了混合語音分離技術(shù)突破，讓計算機(jī)進(jìn)一步學(xué)會像人腦一樣“聽話”。相關(guān)研究成果發(fā)表于最新一期的《模式分析與機(jī)器智能IEEE匯刊》（IEEE Transactions on Pattern Analysis and Machine Intelligence）。

計算機(jī)尚不能有效分離兩個人聲音

據(jù)了解，現(xiàn)有的多模態(tài)語音分離方法大多只是模擬了哺乳動物的皮層通路，即從較低功能區(qū)域（例如初級視覺、聽覺皮層區(qū)）到較高功能區(qū)域（例如高級視覺、聽覺皮層區(qū)）。同時，在人工智能（AI）領(lǐng)域，迄今為止也尚無有效的辦法使計算機(jī)有效分離兩個人的聲音。

然而，實(shí)際上，聽覺、視覺的信息整合中，以丘腦為代表的皮層下結(jié)構(gòu)發(fā)揮了不可忽視的重要作用。

采訪中，記者了解到苑克鑫團(tuán)隊長期聚焦于腦的聽覺處理機(jī)制，近年來的一系列工作逐漸揭示了高級聽覺丘腦的聯(lián)接、功能與工作機(jī)制。

“高級聽覺丘腦作為處理聽覺信息的關(guān)鍵中樞節(jié)點(diǎn)，具有聽覺、視覺雙模態(tài)的特性。其腹內(nèi)側(cè)在介導(dǎo)聽覺、視覺刺激觸發(fā)的危險感知中發(fā)揮關(guān)鍵作用；其背側(cè)既接收來自聽覺皮層第5層的投射，也接收來自視覺皮層第5層的投射，且在整體上形成了皮層-丘腦-皮層（CTC）循環(huán)聯(lián)接架構(gòu)。”苑克鑫表示，這提示高級聽覺丘腦可能通過特殊的聯(lián)接模式整合聽覺、視覺信息從而增強(qiáng)聽覺感知。

在背側(cè)高級聽覺丘腦聯(lián)接特點(diǎn)的啟發(fā)下，苑克鑫團(tuán)隊與胡曉林團(tuán)隊合作提出了一種皮層-丘腦-皮層神經(jīng)網(wǎng)絡(luò)（CTCNet）來執(zhí)行音頻-視覺語音分離任務(wù)。

新模型打開腦啟發(fā)范例

據(jù)介紹，CTCNet模型包括三個模塊——聽覺子網(wǎng)絡(luò)、視覺子網(wǎng)絡(luò)和聽-視融合子網(wǎng)絡(luò)，分別模擬了聽覺皮層、視覺皮層和背側(cè)高級聽覺丘腦。

其基本工作原理為：首先，聽覺信息（語音）和視覺信息（唇部運(yùn)動）以自下而上的方式分別在獨(dú)立的聽覺和視覺子網(wǎng)絡(luò)中處理；然后，經(jīng)過處理的聽覺和視覺信息通過自上而下的聯(lián)接在聽-視融合子網(wǎng)絡(luò)中進(jìn)行多時間分辨率尺度的融合；最后，融合后的信息被回傳至聽覺和視覺子網(wǎng)絡(luò)。上述過程會重復(fù)數(shù)次，最終輸出至聽覺子網(wǎng)絡(luò)。

研究顯示，在三個語音分離基準(zhǔn)數(shù)據(jù)集上的測試結(jié)果表明，在參數(shù)極少的情況下，CTCNet能在視覺信息（唇部運(yùn)動）的輔助下，高度準(zhǔn)確地將混合在一起的語音分離開。

苑克鑫表示，語音分離模型CTCNet是基于高級聽覺丘腦的視、聽融合能力及其皮層-丘腦-皮層循環(huán)聯(lián)接架構(gòu)構(gòu)建的腦啟發(fā)AI模型。通過多次融合和循環(huán)處理聽覺和視覺信息，使AI能夠更好地實(shí)現(xiàn)“雞尾酒會效應(yīng)”。

“新模型的語音分離性能大幅領(lǐng)先于現(xiàn)有方法，不僅為計算機(jī)感知信息處理提供了新的腦啟發(fā)范例，而且在智能助手、自動駕駛等領(lǐng)域有潛力發(fā)揮重要作用?！痹撗芯控?fù)責(zé)人之一苑克鑫說，未來，研究團(tuán)隊將基于自主創(chuàng)新的組織光學(xué)透明化方法，在單神經(jīng)元水平上深入解析高級聽覺丘腦的輸入-輸出聯(lián)接模式，進(jìn)一步提升人工智能系統(tǒng)在自然場景中的感知能力。

據(jù)悉，清華大學(xué)碩士生李凱為論文第一作者，清華大學(xué)博士后謝鳳華、博士生陳航分別為論文第二、第三作者，苑克鑫和胡曉林為該論文共同通訊作者。

相關(guān)論文信息：https://doi.org/10.1109/TPAMI.2024.3384034

上一篇：鄂托克前旗：育苗育希望助力鄉(xiāng)村振興“耕”好未來

下一篇：科技突圍！北大鄂爾多斯能源研究院“新型蓄散結(jié)合式淺層地源綜合試驗(yàn)測試平臺遠(yuǎn)傳系統(tǒng)”上線運(yùn)行

久久久久久亚洲精品不卡,久久久久久无码大片A片,久久国产精品精品国产色婷婷,中文字幕无码人妻少妇免费

資訊中心

政府部門

行業(yè)協(xié)會

產(chǎn)業(yè)園區(qū)

企業(yè)單位

媒體機(jī)構(gòu)