http://caifu86987.cn

聲加科技助力小米首款支持本地命令詞語音喚醒

  9 月 24 日,小米新一代真無線正式亮相,在外形和功能上都較一代有了非常大的變化。小米官方海報廣告詞宣稱“智能真無線,輕松舒适戴”,并且将“智能語音喚醒,雙麥克風降噪”作為其首條宣傳賣點。目前該産品已在小米商城開放預約,9月27日正式上市。

  Air2的語音喚醒到底有多智能呢?據本次算法技術支持方案商——聲加科技CEO邱鋒海介紹,此次小米Air2采用了聲加科技提供的耳機本地語音識别方案,與市面同類産品最大的不同是能直接在Air2耳機端完成多命令詞語音識别,急速響應命令——用戶在播放音樂時無需喚醒語音助手“小愛同學”,可直接向耳機發出語音指令“上一首/上一曲”,“下一首/下一曲”,迅速實現自由切歌,無需再等待語音助手喚醒手機進行響應,大大提高了用戶使用體驗。

  邱鋒海表示,耳機搭載語音助手已經成為目前TWS耳機的主流趨勢,但目前市面上絕大部分産品使用的還是以基于手機的語音識别方案,用戶每一次的語音指令都要首先喚醒手機語音助手,造成響應速度較慢(切換歌曲需要等待5~6秒),不少用戶因此放棄了語音喚醒功能,甯可使用手勢或按鍵,甚至隻能拿出手機進行操作,體驗欠佳。其原因主要受限于耳機運算能力較弱以及電池續航時間短,給耳機端進行精确的語音識别造成了極高難度。而聲加科技的小資源關鍵詞喚醒(KWS)有限語音命令方案攻克了技術難點,可實現喚醒低功耗計算方案,KWS啟動和手機語音交互,有限語音命令實現切歌、調音量等基本操作。在算法所需資源消耗上,低至30Mips, 50KBytes memory的喚醒詞模型(m4f平台),模型規模可變,能根據産品計算資源快速調整模型,還能整合聲加自有前端語音增強,優化整體性能。

  除此之外,耳機使用場景複雜且運算資源受限,如果隻依靠基于深度學習的小資源語音識别模型,在嘈雜環境下會存在誤識率高、識别率低的問題。而Air2同時還搭載了聲加科技的雙麥SVE降噪技術,如定向拾音、環境降噪(尤其是風噪抑制)等,能有效降低通話時的環境噪聲,即使身處嘈雜環境,也能保障高清晰的語音識别以及通話質量。

  據了解,聲加科技成立于2018年1月,專注于通信聲學核心技術,依托于中科院聲學所雄厚的人才和科研資源,打造産學研一體化。其SVE(Soundplus Voice Enhancement)降噪技術可以廣泛應用于耳塞式耳機、半入耳式耳機、入耳式耳機、頭戴式耳機、挂耳式耳機等,是通過雙麥克風陣列,精準計算通話者說話的方位,在保護主方向目标語音的同時,去除環境中的各種幹擾噪聲,例如其他人的講話聲、交通工具産生的噪音、風噪聲等等,有效抑制90%的反向環境噪聲,由此降低環境噪聲最高可達30dB,保證高品質通話效果。讓使用者無論身處何種嘈雜環境,都可細語輕聊,無懼幹擾。其核心技術包括:

  支持單通道回聲抵消、雙通道立體聲回聲抵消,可在設備自身播放大音量時輕松喚醒,ERLE30dB。

  支持多源定位;可在強混響及噪聲幹擾情況下準确定位目标聲源;工作信噪比可低至0db以下;DOA分辨率10°。

  保護目标語音的同時,去除噪聲幹擾與散射噪聲,大幅提高語音識别率;穩态噪聲抑量30dB,非平穩噪聲印制量24dB。

  基于深度神經網絡訓練,根據前端算法進行深度優化,精确辨識關鍵詞,超低誤喚醒。消耗資源配置靈活(小模型超低資源占用;資源豐富時可實現高性能識别),可應用于耳機、手環、手表等可穿戴智能設備。5米喚醒率93%,3米喚醒率97%,誤喚醒2次/48H。

  已成功用于聲學建模,與标準GMM模型相比語音識别率實現了大幅改進,DNN是全連接神經網絡,解決了局部最優解的問題;卷積神經網絡CNN降低模型體積,充分利用語譜中的局部信息;循環神經網絡RNN可以對時間序列進行建模,适合處理語音信号。對動态/穩态噪聲均有效(~30dB)同時保護語音成分,表現魯棒。

  EQ均衡:通過對各種不同頻率的電信号的調節來補償揚聲器和聲場的缺陷,補償和修飾各種聲源及其它特殊作用。

  虛拟環繞聲:在雙聲道立體聲的基礎上,不增加聲道和音箱,把聲場信号通過電路處理後播出,使聆聽者感到聲音來自多個方位。

  此外,作為智能聽覺的創新公司,聲加科技的耳機技術方案還應用在了華為Flypods、小米Air、小米Air2、萬魔EM001、萬魔EM004、京東京魚座等産品上。目前,其團隊憑借十餘年的技術積累,可為B端客戶提供複雜場景下的近場、中場、遠場語音交互技術方案,以及從芯片、模組、PCBA到工業設計的一站式産品方案。其回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成、語音喚醒等性能在行業内均名列前位

  聲加科技助力小米首款支持本地命令詞語音喚醒TWS耳機上市,9 月 24 日,小米新一代真無線正式亮相,在外形和功能上都較一代有了非常大的變化。其回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成、語音喚醒等性能在行業内均名列前位

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息标記有誤,請第一時間聯系我們修改或删除,多謝。