股融通配资,线下配资平台,线上股票配资炒股,10大配资公司

智能語音技術讓人機交互更“絲滑”

信息來源:科技日報更新時間:2024-07-02

6月26日,中國科學院舉辦學部第九屆學術年會,中國科學院外籍院士蓋博·施德潘作學術報告。他一邊用英語講,同傳系統一邊將他的報告內容實時翻譯為中文,呈現在大屏幕上。內容準確,翻譯迅速,即使是專業名詞也不在話下。

該同傳系統所采用的技術正來自于不久前獲得2023年度國家科學技術進步獎一等獎的“多語種智能語音關鍵技術及產業化”項目。

該項目由科大訊飛牽頭,聯合中國科學技術大學、清華大學、華為、中移(杭州)公司等高校及行業領軍企業聯合完成。項目歷時10余年研發成功,攻克多項關鍵技術,構建起具有中國自主知識產權的多語種智能語音技術體系,為我國智能產業升級發展奠定堅實技術基礎。

復雜場景下識別準確率顯著提升

語音是人類最自然便捷的溝通方式,也是智能時代人機交互的關鍵入口。如今我們只需張張嘴,機器就能代替人類完成一系列任務。在這“絲滑”的交互體驗背后,是一系列關鍵技術的創新突破。

要讓機器聽清、聽懂人類語言并不是一件容易的事。語音識別研究中有一道最具挑戰性的典型難題被稱為“雞尾酒會”效應,即遠場環境、噪聲干擾、多人語音混疊等現象導致的語音識別困難?!氨热缭谝粋€嘈雜的雞尾酒會上,很多人同時說話,背景音樂也很響,如何讓機器在這樣的環境中精準識別出需要的聲音?這是很常見的應用場景,也是非常有挑戰性的難題?!笨拼笥嶏w副總裁、研究院院長劉聰介紹,針對這一典型難題,研發團隊提出了多通道語音信號時空分離建模方法,即先將人聲和不同的噪音分離,再進行建模。同時,團隊還提出多維度語音屬性解耦表征方法?!昂唵蝸碚f就是解耦、提取內容、韻律、音色等語音屬性,以便更準確地識別和傳達語音信息,解決了‘雞尾酒會’效應難題,使得復雜場景下語音識別準確率得到顯著提升?!彼f。

劉聰向記者展示的一個典型應用場景中,在人聲嘈雜的大型會議現場,三人同時就不同主題進行混疊發言,此時正常人已難以分辨講話人的具體內容。但智能語音技術不僅可以實現三人重疊語音的角色分離,還可以對每個人的發言進行實時轉寫,準確率在86%以上。

多語種翻譯是智能語音技術另一高頻、高需求應用場景,也是最能體現智能語音技術實力的場景之一。數據是語音技術訓練的關鍵因素之一,但部分小語種訓練知識匱乏、訓練數據稀缺,成為困擾技術發展的瓶頸。

2014年,科大訊飛等單位開始研究包括中國部分民族語言在內的小語種智能語音技術。他們從維語和藏語等民族語言切入,與北京外國語大學、上海外國語大學等建立密切合作,積累了寶貴資源,沉淀大量技術。

在此基礎上,研發團隊設計出全新的多語種通用音素體系和基本語言單元,實現多語種統一音素韻律體系的構建?!拔覀儗⒉煌男≌Z種進行分類,找到同類語種的共同規律,在此基礎上進行分析建模和訓練。最終在訓練數據數量、質量有限的情況下,顯著提升了小語種語音系統性能?!眲⒙斀榻B。

此外,為解決復雜應用場景下語音交互、語音翻譯面臨的深層次語義理解困難、專業性不足等難題,研發團隊還提出了多源知識增強的可信文本生成技術,提升專有詞匯及領域知識引用的準確率。為解決使用國產芯片開展智能語音算法模型訓練和推理面臨的性能低、適配難等問題,團隊通過軟硬件協同優化的動態張量算子自動融合、多硬件聯合的量化計算模擬等方法,解決了智能語音技術硬件平臺受制于人的問題。

大模型使智能語音更具“人情味”

近年來,大模型引發的人工智能浪潮席卷多個領域。智能語音技術同樣也在大模型助力下不斷取得新突破?!按竽P?語音”的發展模式,被認為將給智能語音技術和產業帶來新一輪革命性突破。

“比如大模型可以實現語音技術的超擬人合成,讓機器說話不再有濃厚的朗讀腔,能夠像真人一樣自然對話。而全雙工交互,則可以同時、瞬時進行信號的雙向傳輸,讓人機對話可以隨時打斷和繼續等。這些都讓大模型在智能語音領域備受關注。”科大訊飛研究院常務副院長高建清介紹說,智能語音技術的關鍵創新與大模型技術相結合后,二者可以相互補充、相互促進。

例如,借助語音屬性解耦、語音信號時空分離等技術突破,可以將語音信號經過編碼后輸入到大語言模型中,顯著提升語音大模型的效果。“原來的語音合成、語音識別、機器翻譯等單點技術,借助大模型后臺的理解能力、文本生成能力,在語義理解、指令跟隨、多輪對話、情緒感知、超擬人合成等方面實現了顯著提升,使語音交互體驗得到極大改善?!备呓ㄇ逭f。

著眼未來,大模型技術可以在復雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果。同時基于大模型強大的語義理解、知識問答、多輪對話、多模態建模能力,它也能進一步提升智能語音技術的使用場景和應用價值,支撐實現語音同傳、自動客服、輔學答疑、家庭醫生、虛擬員工、陪伴機器人、服務機器人等未來智能產品創新,培育出更多產業機會,加速通用人工智能時代到來。高建清認為,大模型時代的語音技術本質上是一次推動萬物互聯和原有人機交互場景重構的巨大產業機會,是語音產業的全新戰略機遇。

目前,科大訊飛自主研發的多語種智能語音技術已支持69個語種,除了6個聯合國通用語種(漢語、英語、法語、西班牙語、俄語、阿拉伯語)之外,還包括挪威語、丹麥語等小語種63個,均達到使用門檻。搭載相關技術的智能手機海內外累計激活超10億臺,車載智能化產品累計前裝超5300萬套,支持奇瑞、比亞迪、長安等車企超200萬套“出?!庇唵巍?/span>

相關推薦
MORE