從GUI到AUI:清聽聲學(xué)如何用聲音重塑人機交互
日期:2026-04-02 15:39:26 發(fā)布者:本站
在計算機發(fā)展的每一個階段,人機交互方式的變化,往往決定了技術(shù)演進的方向!
早期計算機依賴命令行(CLI),用戶需通過復(fù)雜指令與機器溝通。隨后,圖形用戶界面(GUI)的出現(xiàn),讓人們通過窗口、圖標和菜單完成操作,極大降低技術(shù)門檻。幾十年來,GUI 一直是智能終端最核心的人機交互方式。
但隨著人工智能與空間計算時代的到來,這一模式正在迎來新的變化。
當(dāng)設(shè)備數(shù)量越來越多、屏幕越來越分散、計算能力越來越強,人機交互重心正在從“視覺界面”轉(zhuǎn)向“自然交互”,在這樣的時代背景下,一種新的交互范式正在出現(xiàn)——AUI(Audio User Interface,聲學(xué)用戶界面)。

AUI概念由清聽聲學(xué)率先提出。它不是簡單的語音控制升級,而是代表一種以聲音為核心媒介的人機交互方式,通過全球領(lǐng)先的定向聲技術(shù)與AI無感拾音技術(shù),讓設(shè)備精準發(fā)聲、準確聆聽,并圍繞聲音完成交互閉環(huán)。
如果說 GUI 是“用眼睛操作設(shè)備”,那么 AUI 則是讓聲音成為新的交互入口。
AUI的三大交互變革
AUI的核心是:讓聲音像光線一樣可控,讓交互像對話一樣自然。
在GUI時代,聲音是附屬品,是提示音、是背景音樂、是嘈雜環(huán)境里的干擾項。在AUI框架下,聲音則成為主界面,它具備空間指向性、內(nèi)容私密性、交互雙向性三大特征。

從點擊界面,到指向聲場
借助定向聲場技術(shù),AUI讓聲音擁有“空間指向性”,聲音不再是無差別擴散的背景噪音,而是精準抵達特定用戶的私密指令,實現(xiàn)“指哪響哪,誰需誰聽”。
從看屏操作,到聽場交互
AUI解放用戶雙眼,在AUI構(gòu)建的場景中,聲音承載了位置、距離、身份等信息,人機交互從“視覺獨占”轉(zhuǎn)向“多模態(tài)感知”,讓交互回歸人類本能,即傾聽與對話。
從設(shè)備界面,到空間界面
GUI是封閉的,而AUI是開放的,它將整個物理空間轉(zhuǎn)化為交互界面,無論是公共自助服務(wù)機上私密的語音交互,還是公共場所的隔聲降噪,AUI讓聲音與公共環(huán)境和諧共存。

AUI的核心技術(shù)引擎
AUI的真正突破,在于構(gòu)建“說”和“聽”的完整閉環(huán)。清聽聲學(xué)的核心技術(shù)布局不止于發(fā)聲,更延伸至空間互語音交互,通過定向發(fā)聲+AI無感拾音雙定向語音交互方案,構(gòu)成AUI的引擎架構(gòu)。
定向發(fā)聲技術(shù),解決“聽得清”的問題,通過對發(fā)聲方向和角度的動態(tài)控制,創(chuàng)建專屬的個人聲場和空間音效,確保聲音僅在特定區(qū)域內(nèi)傳播,這意味著在一個開放空間中,聲音可以被定向到特定的人群或目標區(qū)域,而不影響周圍的其他人或設(shè)備。例如,在公共服務(wù)終端,客戶可以清楚地聽到機器的提示音,而不受周圍噪音干擾。
AI無感拾音技術(shù),則解決“說的清”和“聽得懂”的問題,通過多個內(nèi)置MEMS麥克風(fēng),精準捕捉人聲,搭載AI算法,有效實現(xiàn)AI回聲消除和噪音抑制等功能,聲音傳輸更清晰保真;采用高效的音頻處理技術(shù),實現(xiàn)超低延時性能,確保語音實時清晰傳輸,讓每一次溝通都更加自然流暢且無重音干擾。

在 GUI 時代,交互圍繞“屏幕界面”展開,而在 AUI 時代,交互開始進入真實空間。通過將定向發(fā)聲與定向拾音結(jié)合,清聽聲學(xué)創(chuàng)造性地提供一種無干擾、高效且精準的音頻交互解決方案,形成“說與聽”完整、私密且高效的交互閉環(huán)。在AUI框架下,用戶無需學(xué)習(xí)界面邏輯,無需適應(yīng)設(shè)備特性,只需以最自然的語音方式表達意圖,系統(tǒng)即可在專屬聲場內(nèi)完成精準響應(yīng),不僅提升使用體驗,還最大程度減少環(huán)境噪音干擾,適應(yīng)日益復(fù)雜的現(xiàn)代工作與生活環(huán)境。
AUI的產(chǎn)業(yè)實踐
從 GUI 到 AUI,并不是實驗室里的概念演進,而是一種正在發(fā)生的產(chǎn)業(yè)實踐。GUI 解決的是“如何操作設(shè)備”,而 AUI 關(guān)注的是“人與設(shè)備如何自然溝通”。清聽聲學(xué)基于定向發(fā)聲+定向拾音雙定向語音交互方案,已在多個真實場景中實現(xiàn) AUI 的規(guī)模化應(yīng)用。
自助服務(wù)終端
在銀行、政務(wù)大廳、醫(yī)院掛號等自助服務(wù)場景,清聽聲學(xué)定向發(fā)聲技術(shù)將操作指引與語音播報精準鎖定用戶,鄰位辦理者互不干擾,開放式大廳也可獲得私密交互體驗。搭載AI語音助手交互終端,通過定向拾音技術(shù)精準捕捉用戶指令,即使在背景嘈雜環(huán)境,系統(tǒng)仍能清晰識別、即時響應(yīng),用戶無需俯身湊近、無需刻意提高音量重復(fù)指令,即可自然完成業(yè)務(wù)辦理。

博物館與科技館
在博物館或科技館等展覽空間,清聽聲學(xué)定向發(fā)聲技術(shù)能夠?qū)⒄蛊方庹f精準地傳遞至特定位置,而不影響其他游客的參觀體驗,搭載AI 數(shù)字人的交互大屏,通過定向拾音技術(shù)可在游客與數(shù)字人之間實現(xiàn)高效對話,避免背景噪音干擾,有效提升互動體驗。

開放式辦公場景
在開放式辦公環(huán)境中,噪音往往成為員工專注工作和溝通的障礙。清聽聲學(xué)定向發(fā)聲技術(shù)能夠精準傳遞語音信息,減少辦公室內(nèi)不同工位之間的聲音干擾;同時,定向拾音技術(shù)能夠確保語音指令或會議記錄的準確捕捉,提升工作及溝通效率。

AUI的提出者,為什么是清聽聲學(xué)?
從 GUI 到 AUI,并不是簡單的技術(shù)升級,而是一種交互范式的演進。然而,提出新的交互范式,需要的不僅是概念,更需要長期技術(shù)積累與產(chǎn)業(yè)實踐的支撐。
清聽聲學(xué)成立于2015年,是中國科學(xué)院聲學(xué)研究所產(chǎn)業(yè)化平臺,國家級專精特新“小巨人”企業(yè)、國家高新技術(shù)企業(yè)。十余年來,公司始終專注于定向聲學(xué)技術(shù)創(chuàng)新,并推動其從實驗室走向大規(guī)模商業(yè)應(yīng)用。

截至目前,清聽聲學(xué)已完成定向聲技術(shù)的三次關(guān)鍵技術(shù)迭代,累計擁有450+項知識產(chǎn)權(quán)與250+項核心技術(shù)專利,并建成全球首條聚音屏柔性中試產(chǎn)線。從定向聲技術(shù)發(fā)明、產(chǎn)品工程化,到規(guī)模化商業(yè)落地,清聽聲學(xué)構(gòu)建完整的技術(shù)體系與產(chǎn)業(yè)能力。

當(dāng)行業(yè)仍然圍繞屏幕參數(shù)和觸控體驗展開競爭時,清聽聲學(xué)已經(jīng)率先完成顯示技術(shù)與聲學(xué)技術(shù)的深度融合——讓屏幕不僅可以“看見”,更可以“發(fā)聲”。這不是功能疊加,而是交互結(jié)構(gòu)的重構(gòu)。
正是基于這一持續(xù)的技術(shù)創(chuàng)新與產(chǎn)業(yè)實踐,清聽聲學(xué)率先提出AUI(聲學(xué)用戶界面) 概念,這是一種對未來人機交互形態(tài)的前瞻判斷。當(dāng)交互從“屏幕界面”走向“空間聲場”,AUI 正在成為連接人與智能世界的重要入口。
AUI的提出,是技術(shù)突破的水到渠成,更是清聽聲學(xué)對產(chǎn)業(yè)未來的先行布局。