網易易盾AI團隊包攬“語音關鍵詞識別”雙賽道冠軍

500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  近日,第十六屆全國人機語音通訊學術會議(NationalConferenceonMan-MachineSpeechCommunication,NCMMSC2021)公布“長短視頻多語種多模態識別挑戰賽”(VideoKeywordWakeupCompetition)-—漢語長短視頻直播語音關鍵詞(VKW)任務最終成績。

  歷時4個月的征集與評選,網易易盾在VKW任務中,以綜合指標第一名的成績擊敗來自海內外的61支隊伍,在驗證集的3個場景上均取得大幅超出基線25%的效果,坐擁“受限”與“非受限”賽道的雙料冠軍。

  這是網易易盾繼視覺、深度偽造、自然語義識別等方向大賽奪冠之后,在語音方向的又一突破和進展,彰顯了網易易盾在人工智能領域的綜合技術實力,語音自定義關鍵詞識別準確度達實用級別。

  一、大賽有哪些挑戰?

  兩大并行指標、三類媒體形式

  自1990年開創以來,該系列會議已成功召開了15屆,每年都會推出不同的語音識別任務。

  本次挑戰賽,由騰訊科技ASR&OCRoteam聯合清華大學、西北工業大學、數據堂、中國計算機學會語音對話與聽覺專委會發起,聚焦時下業界最為關注的三類媒體形式——長視頻、短視頻、直播場景,考察模型在場景失配下的語音內容理解與識別能力?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  挑戰賽提供規模巨大數據集,訓練數據集涵蓋1505小時普通話朗讀數據,并提供長視頻、短視頻、直播場景各5小時有標注數據供場景微調,各5小時有標注數據用于在開發集關鍵詞列表上進行系統優化和調參,各20小時有標注數據用于評價提交系統。

  本次比賽的評價指標與國際接軌,采用語音關鍵詞的整體精準度(Precision)、召回率(Recall)與ATWV指標(ActualTerm-weightedValue)作為并行評測指標,兼顧不同目標,增加了識別任務的難度。

  精準度及召回率:

  即語音中全部關鍵詞的識別情況,反映系統對于當前詞表的綜合性能。

  TWV指標:

  即每個關鍵詞上平均TWV值,反映系統對于不同頻次關鍵詞檢測效果的平均性能。

  三個賽道的成果展示:  
500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  網易易盾nisp_speech團隊在引入了多項特色增強技術之后,在短視頻場景測試集中,定位準確率高達0.88,召回率高達0.93,不同頻次關鍵詞檢測效果的平均性能高達0.93,在“場景適配”和“關鍵詞定位”的算法精度上取得第一,達到靈活適配多場景、支持用戶自定義語音關鍵詞的理想效果。

  二、我們是如何實現的?

  獨創BBS-KWS解決方案的背后

  網易易盾首創一種頗具實用價值的關鍵詞檢測算法(BBS-KWS),即一套基于端到端ASR模型的KWS算法。ASR模塊中使用CTC-based方法搭建,通過引入綜合大主干(bigbackbone)、關鍵詞偏移(biasingkeywords)、混合音節建模(mixedsyllablemodelingunits)提升關鍵詞候選路徑的準召能力,通過引入關鍵詞多級匹配、模糊匹配、關鍵詞打分約束最終的決策,并引入大數據半監督學習,改善模型在更復雜語音環境下的適應能力?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  圖|BBS-KWS算法流程

  基于三大主要特點命名:

  第一個B代表大主干(bigbackbone),算法中引入了Conformer結構作為基礎,在模型前期引入更多卷積層提升特征表達能力,在重點捕獲語義的編碼層拓寬了多頭注意力層。模型主干的能力被大大提升;

  第二個B代表關鍵詞偏移(biasingkeyword),算法在ASR解碼過程中引入了基于語言模型的自適應熱詞權重,引導解碼過程更偏向關鍵詞;

  第三個S代表混合音節建模(mixedsyllablemodelingunit),算法引入了更小的建模單元音節,以獲得更好的泛化能力;

  此外,KWS中的多級匹配,模糊匹配能處理部分KWS問題中OOV的問題,對算法的提升明顯。VKW任務中的難點之一是場景失配,BBS-KWS中的聲學模型也通過多輪次的半監督學習提升場景適應能力,獲得更高的精度。

  BBS-KWS開發便捷,針對新增自定義關鍵詞的場景可以靈活地適配,大大提升召回,對精度的把控主要依靠關鍵詞打分及工作點的選擇上。未來針對關鍵詞的自適應關鍵點及區分誤召回方面仍有提升空間?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  圖|易盾nisp_speech的團隊成員

  為了提升效果,易盾nisp_speech團隊設計了一系列算法實驗,做了很多優化。“有賴于日常積累,我們團隊以相對平緩的節奏完成了本次競賽任務,”網易易盾資深計算機語音算法工程師杜彬彬表示,團隊內部的充分交流與合作可以激發創新。在比賽準備過程中,每一位成員直接參與各項baseline效果的提升,通過內部榜單看進展,并各自學習訓練過程中的優質經驗。

  三、我們的技術有哪些應用?

  專注AI識別,與產業應用結合

  關鍵詞檢測,是語音識別的核心領域之一,其目的在于識別語音材料中的特定詞匯是否出現以及出現的位置,有利于促進機器更好理解多語種、長短句的語意,對語音內容檢測的準確率產生最直接的影響。

  一站式、多場景應用

  成立于2016年的網易易盾,以敏感內容檢測起家,在語音識別、視頻識別、文本識別等計算機感知領域的技術儲備雄厚,在落地應用上也擁有著諸多的實踐經驗。當前,網易易盾語音關鍵詞識別技術已成功應用于點播、直播、IM私聊、語音社交等場景中的不良內容檢測?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  監管合規策略布控

  “音頻檢測”,是易盾內容安全檢測技術之一,核查語音是否涉及色情、政治、謾罵、廣告等關鍵詞,綜合理解文本語義環境,一網打盡若干種類型的內容風險。

  易盾技術團隊構建了“自主發現-精細排查-循環迭代”的完整技術鏈路,能夠靈活高效響應緊急問題,并形成了算法極速定制機制,能夠在短周期內訓練出滿足客戶需要的個性化算法模型,進一步確立了內容安全領域技術能力的領先性。

  截止目前,網易易盾“語音檢測”解決方案為廣播電視、陌生人社交、在線音樂等行業客戶保駕護航,提供智能解析、關鍵詞定位、語義理解、聲紋檢測等服務,累計過檢時長超3億小時。

  四、總結

  語音識別所面對的挑戰有別于文本、圖像識別:

  語音中的敏感內容檢測并不是一步到位,先得把音頻轉換成文字,這個過程十分復雜,AI機器不僅要理解語音,而且得分析語義,做出最佳轉換決策。小語種、方言、語音、語調、語速、背景音、噪音都會導致語音中“關鍵詞”定位的準確率下降?! ?center>500)this.width=500" align="center" hspace=10 vspace=10 alt="">
  
500)this.width=500" align="center" hspace=10 vspace=10 alt="image.png">
  獨創的關鍵詞檢測算法(BBS-KWS),在業界權威大賽受到認可,意味著易盾在合作中能夠為企業提供更優質的音視頻解決方案。全面升級的語音內容檢測能力,將幫助娛樂社交行業解決合規審核不足、人工成本高企的眾多問題,助力新形態產品輕松應對“風控”與“運營”環節。

  后疫情時代,語音社交以便捷的優勢悄然步入日常生活,語音數據迎來了爆炸式增長。另一方面,政策制定愈發明晰,監管態度趨嚴,可以預見的是,國家越來越重視運用互聯網技術和信息化手段開展互聯網內容生態治理,營造清朗的網絡空間。

  未來,網易易盾也將持續針對數字網絡時代的敏感內容識別輸出新技術,進一步擴大應用范圍,不斷提升核心效果。