&

從GUI到AUI：清聽聲學(xué)如何用聲音重塑人機交互

日期：2026-04-02 15:39:26 發(fā)布者：本站

　　在計算機發(fā)展的每一個階段，人機交互方式的變化，往往決定了技術(shù)演進的方向！

　　早期計算機依賴命令行（CLI），用戶需通過復(fù)雜指令與機器溝通。隨后，圖形用戶界面（GUI）的出現(xiàn)，讓人們通過窗口、圖標和菜單完成操作，極大降低技術(shù)門檻。幾十年來，GUI 一直是智能終端最核心的人機交互方式。

　　但隨著人工智能與空間計算時代的到來，這一模式正在迎來新的變化。

　　當(dāng)設(shè)備數(shù)量越來越多、屏幕越來越分散、計算能力越來越強，人機交互重心正在從“視覺界面”轉(zhuǎn)向“自然交互”，在這樣的時代背景下，一種新的交互范式正在出現(xiàn)——AUI（Audio User Interface，聲學(xué)用戶界面）。

　　AUI概念由清聽聲學(xué)率先提出。它不是簡單的語音控制升級，而是代表一種以聲音為核心媒介的人機交互方式，通過全球領(lǐng)先的定向聲技術(shù)與AI無感拾音技術(shù)，讓設(shè)備精準發(fā)聲、準確聆聽，并圍繞聲音完成交互閉環(huán)。

　　如果說 GUI 是“用眼睛操作設(shè)備”，那么 AUI 則是讓聲音成為新的交互入口。

　　AUI的三大交互變革

　　AUI的核心是：讓聲音像光線一樣可控，讓交互像對話一樣自然。

　　在GUI時代，聲音是附屬品，是提示音、是背景音樂、是嘈雜環(huán)境里的干擾項。在AUI框架下，聲音則成為主界面，它具備空間指向性、內(nèi)容私密性、交互雙向性三大特征。

從GUI到AUI：清聽聲學(xué)如何用聲音重塑人機交互

　　從點擊界面，到指向聲場

　　借助定向聲場技術(shù)，AUI讓聲音擁有“空間指向性”，聲音不再是無差別擴散的背景噪音，而是精準抵達特定用戶的私密指令，實現(xiàn)“指哪響哪，誰需誰聽”。

　　從看屏操作，到聽場交互

　　AUI解放用戶雙眼，在AUI構(gòu)建的場景中，聲音承載了位置、距離、身份等信息，人機交互從“視覺獨占”轉(zhuǎn)向“多模態(tài)感知”，讓交互回歸人類本能，即傾聽與對話。

　　從設(shè)備界面，到空間界面

　　GUI是封閉的，而AUI是開放的，它將整個物理空間轉(zhuǎn)化為交互界面，無論是公共自助服務(wù)機上私密的語音交互，還是公共場所的隔聲降噪，AUI讓聲音與公共環(huán)境和諧共存。

　　AUI的核心技術(shù)引擎

　　AUI的真正突破，在于構(gòu)建“說”和“聽”的完整閉環(huán)。清聽聲學(xué)的核心技術(shù)布局不止于發(fā)聲，更延伸至空間互語音交互，通過定向發(fā)聲+AI無感拾音雙定向語音交互方案，構(gòu)成AUI的引擎架構(gòu)。

　　定向發(fā)聲技術(shù)，解決“聽得清”的問題，通過對發(fā)聲方向和角度的動態(tài)控制，創(chuàng)建專屬的個人聲場和空間音效，確保聲音僅在特定區(qū)域內(nèi)傳播，這意味著在一個開放空間中，聲音可以被定向到特定的人群或目標區(qū)域，而不影響周圍的其他人或設(shè)備。例如，在公共服務(wù)終端，客戶可以清楚地聽到機器的提示音，而不受周圍噪音干擾。

　　AI無感拾音技術(shù)，則解決“說的清”和“聽得懂”的問題，通過多個內(nèi)置MEMS麥克風(fēng)，精準捕捉人聲，搭載AI算法，有效實現(xiàn)AI回聲消除和噪音抑制等功能，聲音傳輸更清晰保真；采用高效的音頻處理技術(shù)，實現(xiàn)超低延時性能，確保語音實時清晰傳輸，讓每一次溝通都更加自然流暢且無重音干擾。

清聽聲學(xué)雙定向語音交互方案

　　在 GUI 時代，交互圍繞“屏幕界面”展開，而在 AUI 時代，交互開始進入真實空間。通過將定向發(fā)聲與定向拾音結(jié)合，清聽聲學(xué)創(chuàng)造性地提供一種無干擾、高效且精準的音頻交互解決方案，形成“說與聽”完整、私密且高效的交互閉環(huán)。在AUI框架下，用戶無需學(xué)習(xí)界面邏輯，無需適應(yīng)設(shè)備特性，只需以最自然的語音方式表達意圖，系統(tǒng)即可在專屬聲場內(nèi)完成精準響應(yīng)，不僅提升使用體驗，還最大程度減少環(huán)境噪音干擾，適應(yīng)日益復(fù)雜的現(xiàn)代工作與生活環(huán)境。

　　AUI的產(chǎn)業(yè)實踐

　　從 GUI 到 AUI，并不是實驗室里的概念演進，而是一種正在發(fā)生的產(chǎn)業(yè)實踐。GUI 解決的是“如何操作設(shè)備”，而 AUI 關(guān)注的是“人與設(shè)備如何自然溝通”。清聽聲學(xué)基于定向發(fā)聲+定向拾音雙定向語音交互方案，已在多個真實場景中實現(xiàn) AUI 的規(guī)模化應(yīng)用。

　　自助服務(wù)終端

　　在銀行、政務(wù)大廳、醫(yī)院掛號等自助服務(wù)場景，清聽聲學(xué)定向發(fā)聲技術(shù)將操作指引與語音播報精準鎖定用戶，鄰位辦理者互不干擾，開放式大廳也可獲得私密交互體驗。搭載AI語音助手交互終端，通過定向拾音技術(shù)精準捕捉用戶指令，即使在背景嘈雜環(huán)境，系統(tǒng)仍能清晰識別、即時響應(yīng)，用戶無需俯身湊近、無需刻意提高音量重復(fù)指令，即可自然完成業(yè)務(wù)辦理。

自助服務(wù)終端集成清聽聲學(xué)定向發(fā)聲技術(shù)示意圖

　　博物館與科技館

　　在博物館或科技館等展覽空間，清聽聲學(xué)定向發(fā)聲技術(shù)能夠?qū)⒄蛊方庹f精準地傳遞至特定位置，而不影響其他游客的參觀體驗，搭載AI 數(shù)字人的交互大屏，通過定向拾音技術(shù)可在游客與數(shù)字人之間實現(xiàn)高效對話，避免背景噪音干擾，有效提升互動體驗。

展覽館的清聽聲學(xué)定向發(fā)聲技術(shù)示意圖

　　開放式辦公場景

　　在開放式辦公環(huán)境中，噪音往往成為員工專注工作和溝通的障礙。清聽聲學(xué)定向發(fā)聲技術(shù)能夠精準傳遞語音信息，減少辦公室內(nèi)不同工位之間的聲音干擾；同時，定向拾音技術(shù)能夠確保語音指令或會議記錄的準確捕捉，提升工作及溝通效率。

開放式辦公場景應(yīng)用定向發(fā)聲示意圖

　　AUI的提出者，為什么是清聽聲學(xué)？

　　從 GUI 到 AUI，并不是簡單的技術(shù)升級，而是一種交互范式的演進。然而，提出新的交互范式，需要的不僅是概念，更需要長期技術(shù)積累與產(chǎn)業(yè)實踐的支撐。

　　清聽聲學(xué)成立于2015年，是中國科學(xué)院聲學(xué)研究所產(chǎn)業(yè)化平臺，國家級專精特新“小巨人”企業(yè)、國家高新技術(shù)企業(yè)。十余年來，公司始終專注于定向聲學(xué)技術(shù)創(chuàng)新，并推動其從實驗室走向大規(guī)模商業(yè)應(yīng)用。

清聽聲學(xué)定義AI聲學(xué)全鏈生態(tài)

　　截至目前，清聽聲學(xué)已完成定向聲技術(shù)的三次關(guān)鍵技術(shù)迭代，累計擁有450+項知識產(chǎn)權(quán)與250+項核心技術(shù)專利，并建成全球首條聚音屏柔性中試產(chǎn)線。從定向聲技術(shù)發(fā)明、產(chǎn)品工程化，到規(guī)模化商業(yè)落地，清聽聲學(xué)構(gòu)建完整的技術(shù)體系與產(chǎn)業(yè)能力。

清聽聲學(xué)研發(fā)生產(chǎn)基地

　　當(dāng)行業(yè)仍然圍繞屏幕參數(shù)和觸控體驗展開競爭時，清聽聲學(xué)已經(jīng)率先完成顯示技術(shù)與聲學(xué)技術(shù)的深度融合——讓屏幕不僅可以“看見”，更可以“發(fā)聲”。這不是功能疊加，而是交互結(jié)構(gòu)的重構(gòu)。

　　正是基于這一持續(xù)的技術(shù)創(chuàng)新與產(chǎn)業(yè)實踐，清聽聲學(xué)率先提出AUI（聲學(xué)用戶界面）概念，這是一種對未來人機交互形態(tài)的前瞻判斷。當(dāng)交互從“屏幕界面”走向“空間聲場”，AUI 正在成為連接人與智能世界的重要入口。

　　AUI的提出，是技術(shù)突破的水到渠成，更是清聽聲學(xué)對產(chǎn)業(yè)未來的先行布局。