京東云語音語義領域8篇論文被國際頂會發表

技術的價值往往體現在其應用過程中,便隨著人工智能的大規模應用,人工智能的工程化能力正在被人們所關注,根據Gartner發布的2021年重要戰略科技趨勢,為將人工智能轉化為生產力,就必須轉向人工智能工程化這門專注于各種人工智能操作化和決策模型(例如機器學習或知識圖)治理與生命周期管理的學科。

那么,人工智能的基礎研究不再重要了嗎?

答案是否定的。縱觀全球各科技企業,無不例外在持續加大對人工智能基礎研究的投入,以語音語義為例,作為人工智能的重要組成部分,對該領域的研究正不斷突破,為人機的交互模式帶來了更多的可能。

2021年,京東云橫掃多個國際頂級學術會議,多篇論文獲被發表,細分領域跨域長文的機器閱讀理解、內容生成、知識融合、對話推薦、圖神經網絡和可解釋的增量學習等。

下面以其中的8篇論文為例,分享各自在解決所要攻克的問題、提出的新方法以及取得的可被行業借鑒的成果。

論文標題:RoR: Read-over-Read for Long Document Machine Reading Comprehension

論文鏈接:https://arxiv.org/abs/2109.04780

發表刊物:Findings of EMNLP 2021

Motivation: 大規模預訓練語言模型在多個自然語言處理任務上取得了顯著的成果,但受限于編碼長度(例如,BERT只能一次性編碼512個WordPiece字符),無法有效地應用于多種長文本處理任務中,例如長文本閱讀理解任務。

Solution: 對此,本論文提出了從局部視角到全局視角的重復閱讀方法RoR(如下圖所示),可提高超長文本的閱讀理解能力。具體而言,RoR 包括一個局部閱讀器和一個全局閱讀器。首先,給定的長文本會被切割為多個文本片段。然后,局部閱讀器會為每個文本片段預測出一組局部答案。這些局部答案接下來會被組裝壓縮為一個新的短文本來作為原始長文檔的壓縮版本。全局閱讀器會進一步從此壓縮文本中預測出全局答案。最終,RoR使用一種投票策略來從局部和全局答案中選擇最終預測。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:在兩個長文本閱讀理解基準 QuAC 和 TriviaQA 上,大量實驗證明了RoR可以有效提高預訓練語言模型在長文檔閱讀的建模能力。RoR在公開對話閱讀理解榜單QuAC(https://quac.ai/)上獲得第一名的優異成績。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


圖1:QuAC官方Leaderboard(截止2021/10)

論文標題:Learn to Copy from the Copying History: Correlational Copy Network for Abstractive Summarization

發表刊物:EMNLP 2021

Motivation: 復制機制是生成式自動文摘模型的常用模塊,已有模型使用注意力概率作為復制概率,忽視了復制歷史的影響。

Solution: 本論文提出了一種新的復制機制(Correlational Copying Network,CoCoNet),該機制可以使用復制歷史指導當前的復制概率。具體來說,CoCoNet在計算每一步的復制概率時,不僅會參考當前時刻的注意力概率,還會通過相似度和距離度量,將歷史時刻的復制概率轉移到當前時刻,從而提高復制行為的連貫性和合理性。此外,我們還提出一種Correlational Copying Pre-training (CoCo-Pretrain) 子任務,進一步增強CoCoNet的復制能力。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:本論文提出的復制機制,可以應用于一系列文本摘要相關應用中。我們在新聞摘要數據集(CNN/DailyMail dataset)和對話摘要數據集(SAMSum dataset)上的效果(如表1、2)超過已有的生成式摘要模型。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


表1:ROUGE scores on the CNN/DailyMail dataset.

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


表2:ROUGE scores on the SAMSum dataset.

論文標題:K-PLUG: Knowledge-injected Pre-trained Language Model for Natural Language Understanding and Generation in E-Commerce

論文鏈接:https://arxiv.org/abs/2104.06960

發表刊物:Findings of EMNLP 2021

Motivation: 預訓練語言模型在多個NLP任務展示出超越非訓練語言模型的效果。然而,預訓練語言模型在領域遷移過程中,性能會受到影響。特定領域的預訓練語言模型對該領域的下游應用會有很大幫助。

Solution: 本論文為電商領域設計了一個大規模預訓練語言模型,定義了一系列電商領域知識,包括產品詞、商品賣點、商品要素和商品屬性。并針對這些知識,提出了相應的語言模型預訓練任務,包括面向知識的掩碼語言模型、面向知識的掩碼序列到序列生成、商品實體的要素邊界識別、商品實體的類別分類、商品實體的要素摘要生成。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Result:本論文提出的預訓練語言模型可應用于多個電商領域的文本理解和生成任務,在包括電商知識圖譜補齊、電商客服多輪對話、商品自動文摘等多個任務上取得最佳性能。

論文標題:RevCore: Review-Augmented Conversational Recommendation

論文鏈接:https://arxiv.org/abs/2106.00957

發表刊物:Findings of ACL 2021

Motivation: 對話推薦系統(Conversational Recommender System)是基于自然語言的多輪對話理解用戶的需求和偏好,并根據當前動態的需求和偏好推薦商品和服務。對話推薦系統中長期存在2個挑戰。1)對話中信息量較少導致的推薦準確度較低的問題; 2)數據收集過程缺乏專業性導致生成的對話回復信息量較少的問題。

Solution: 本論文提出使用非結構化的評論作為外部知識緩解對話推薦系統中由于信息量較少而存在的推薦準確度低且回復話術信息量不足的問題。該方法首先突破了非結構性文本(評論)與結構化知識(知識圖譜)在對話推薦系統的技術性融合的問題。其次,通過在對話推薦過程中檢索出情感一致的評論,進一步提高對用戶推薦的契合度。本論文提出的RevCore系統框架圖如下圖。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result: 本方法在保證外部文本與原始數據邏輯一致的前提下,在對話質量和推薦質量上均有較大提升。情感一致的用戶評論的引入,首先提高了推薦系統的準確度。此外,由于更加豐富的實體信息以及適當的建模方式提高了對話回復的多樣性和豐富度。該框架可較好的應用在工業界的對話推薦系統中,包括智能客服、智能家居、智能對話機器人等。該框架還具有較強的可移植性,RevCore在電影對話推薦領域獲得的提升,將給予其他各個行業啟發,利用外部評論數據創造更好的對話推薦引擎,提供更好的行業服務。

論文標題:DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder

論文鏈接:https://arxiv.org/abs/2109.10480

發表刊物:CIKM 2021

Motivation:對話文本由于其特殊的角色信息和層次化結構,普通的文本編碼器在對話任務的下游任務中往往不能發揮最好的效果。在這篇文章中,受到自監督學習在NLP任務中廣泛應用的啟發,我們提出了基于自監督學習、面向對話的預訓練模型DialogueBERT。

Solution:這篇論文提出了五個面向對話的自監督預訓練任務,包括消息掩碼建模、單詞掩碼建模、消息替換建模、消息順序交換建模、答復對比建模,基于Transformer模型架構,利用海量對話數據進行預訓練,抽取其中的單詞、對話輪次、對話角色信息作為輸入,學習對話文本的上文結構信息和對話場景語義表示。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:實驗證明我們的模型相比其他面向對話的預訓練模型,可以較好的改進意圖識別、實體識別以及情緒識別等下游對話理解任務的表現。DilaogueBERT直接利用海量無監督對話數據進行自監督學習,證明了基于對話語料的預訓練的可行性。相比傳統的基于監督學習的編碼器和基于通用自然語言模型的編碼器,DialogueBERT準確率更高,能夠獲得更加魯棒的對話編碼效果。本文還分析了多種針對自監督學習的任務特點,對于未來的對話自監督編碼研究具有一定借鑒意義。

論文標題:Multi-hop Attention Graph Neural Networks

論文鏈接:https://arxiv.org/abs/2009.14332

發表刊物:IJCAI 2021

Motivation: 目前基于注意力機制的圖神經網絡中的Attention僅局限于直接鄰居,因此每一層的感受域只局限在單跳結構中,學習多跳結構信息需疊加更多的層數,然而更多層數通常會帶來過平滑問題(Over-smoothing Problem)。同時這些Attention的計算只與節點表示本身有關,并沒有考慮到圖結構的上下文信息,而將多跳近鄰結構化信息考慮到圖神經網絡的注意力計算很少被研究。

Solution: 本論文提出一種基于多跳注意力機制的圖神經網絡模型(MAGNA),包括圖注意力擴散模塊, 深層Feed Forward聚合模塊,Layer Normalization以及殘差鏈接,基于圖擴散(Graph Diffusion)的注意力計算,能夠在單層圖神經網絡中具有多跳結構的感受域。同時給出了基于譜特征分析,證明多跳diffusion attention相比單跳attention具有更好的圖結構學習能力。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:本論文提出的模型,在半監督圖節點分類問題以及知識圖譜補全任務上均取得SOTA的性能,同時能夠解決深層圖神經網絡通常出現的過平滑問題。

Impact: 基于圖擴散注意力計算是將稀疏圖信息和自注意力計算統一到一個模型中的關鍵步驟,在避免過擬合的同時提高了模型性能,并且只引入了常數因子的訓練時間開銷。自注意力機制在序列(如NLP)數據上取得巨大成功,而基于圖擴散的注意力機制在計算任何兩點之間的注意力的同時兼顧到結構信息。因此,本論文提出的模型有利于統一序列數據和圖結構數據學習或者設計新的算法在考慮結構化信息的同時進行序列分析(如將語法樹信息融合進文本情感分析/利用Diffusion Attention方法實現稀疏化Transformer)。

論文標題:Incremental Learning for End-to-End Automatic Speech Recognition

論文鏈接:https://arxiv.org/abs/2005.04288v3

發表刊物:ASRU 2021

Motivation: 語音識別增量學習旨在保留模型原有識別能力的同時,提高其在新場景下的語音識別能力,具有廣泛的應用價值。然而,在模型原始訓練數據因隱私、存儲等問題而不再可用的情況下,語音識別模型在增量學習過程中往往面臨“災難性遺忘”。

Solution: 本論文提出了一種新的基于模型可解釋性的知識蒸餾方法,并將其與基于模型輸出響應的知識蒸餾方法相結合,以使得在僅采用新場景數據進行語音識別增量學習的過程中,保留原模型的輸出結果和得到該輸出結果的“原因”,從而有效抑制模型對原有知識的遺忘。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:在開源數據集和實際應用場景數據集上的增量學習實驗結果表明,在抑制模型對原有知識的遺忘方面,本論文方法顯著優于現有方法。本論文提出的方法在無需訪問模型原始訓練數據的條件下,僅利用原模型和新場景的語音數據進行增量訓練,能夠在讓模型快速適應新任務場景(如新口音、新術語、新聲學環境等)的同時,保留模型原有的識別性能。

論文標題:Learning to Compose Stylistic Calligraphy Artwork with Emotions

發表刊物:ACM Multimedia 2021 (Oral)

Motivation:情緒在書法創作中發揮了非常重要的作用,它讓書法作品更加有藝術性和感染力。之前的工作忽略了情感在書法創作中的重要性,并且局限于單字書法的圖像生成,沒有考慮篇章布局。在這篇文章中,我們提出了一種情緒驅動的、篇章級的書法生成框架。

Solution:我們的模型可以從輸入文本中檢測用戶情感,基于生成對抗網絡生成字級別書法圖片,最后基于循環神經網絡預測書法篇章布局,合成具有藝術性的風格化書法作品。該研究是業界第一篇基于情緒的、篇章級的風格化書法生成工作。

500)this.width=500\" align=\"center\" hspace=10 vspace=10 alt=\"京東云語音語義領域8篇論文被國際頂會發表   \">


Experimental Result:實驗顯示,我們提出的模型相比之前書法生成模型和圖像風格轉換模型,在真實書法數據集上可以獲得更好的內容正確性和風格一致性。人工評估的結果也顯示我們提出的模型生成的書法作品更具有藝術性。此外,本文提出的圖像風格遷移算法還可以廣泛應用到計算機視覺的圖像生成任務中,包括個性化廣告圖片生成、圖片特效濾鏡等應用場景。

技術的創新發展與應用,有效推動了產業數字化、智能化的發展進程,而要實現更高層次的創新發展,離不開人工智能的堅實助力。本次8篇論文在國際學術會議中發表,是京東云在人工智能領域集中爆發的重要體現。未來,京東云將繼續沿著以AI推動產業數字化的方向,加快推進產學研用一體化應用,構筑“技術+場景”的創新應用新生態,在世界舞臺上彰顯中國企業的技術實力。