當前位置:網站首頁>自然語言處理學習筆記(一)

自然語言處理學習筆記(一)

2022-01-28 05:21:07 美好的下午

NLP:自然語言和處理兩部分

發展曆程

  1. 香農提出信息熵的概念
  2. NLP發源於1950年。圖靈於該年提出圖靈測試

NLP規則時代

  1. 喬姆斯基文法規則定義的上下文無關法規則

NLP統計時代

  1. 馬爾可夫性質的模型(語言模型、隱馬爾可夫模型)
  2. 神經語言模型
    將神經網絡和語言模型相結合,為曆史上第一次使用神經網絡得到詞嵌入矩陣
  3. 條件隨機場CRF,為序列標注問題的利器
  4. LDA模型提出的概念圖模型
  5. 提出分布式假設理論,為詞嵌入技術提供理論基礎

NLP深度時代

  1. 隨著算力發展,神經網絡越做越深 CNNs RNNs Recursive NN
  2. seq2seq機器翻譯 CNN
  3. attention的seq2seq
  4. 純attention
  5. bert

深度學習時代,神經網絡能够自動從數據中挖掘特征,人們從複雜的特征中脫離出來,專注於模型算法本省創新和理論突破。從一開始的機器翻譯領域逐漸擴散到NLP其他領域,傳統經典算法不如從前。神經網絡是一個黑箱,可解釋性為一個痛點,複雜度較高,因此工業界的經典算法還是占據主流。

基本分類

自然語言理解NLU和自然語言生成NLG兩種

NLU:如何理解文本;
文本分類、命名實體識別、指代消歧、句法分析、機器閱讀理解

語言的多樣性、歧義性、魯棒性、知識依賴、上下文

NLG:如果理解文本後生成自然文本
自動摘要、機器翻譯、問答系統、對話機器人

內容確定、文本結構、句子聚合、語法化、參考錶達式生成、語言實現

基本領域

  • 文本檢索
    大規模數據檢索,搜索引擎
  • 機器翻譯
    跨語種翻譯
  • 文本分析/情感分析
    分類問題,多標簽分類
  • 信息抽取
    不規則文本中抽取想要信息,命名實體識別、關系抽取、實踐抽取
  • 序列標注
    文本中每一個詞都打上相應的標簽,為大多數NLP底層技術核心,分詞、詞性標注、關鍵詞抽取、命名實體識別、語義角色標注
  • 文本摘要
    給定文本中聚焦最核心部分
  • 問答系統
  • 對話系統
    閑聊式和任務導向型,以口語化的自然語言對話方式解决用戶問題
  • 知識圖譜
    建立在圖譜基礎上的知識檢索、知識推理、知識發現是知識圖譜的研究方向
  • 文本聚類
    從大規模文本數據中自動發現規律,如何錶示文本以及如何度量文本之間的距離。

基本技術

  • 分詞
  • 詞性標注
    詞性,作額外特征使用
  • 句法分析
    句法結構分析和依存句法分析
  • 詞幹提取
    從單詞各種前後綴變化、時態變化中還原詞幹
  • 命名實體識別
    識別並抽取文本中的實體,BIO
  • 指代消歧
    文本中的代詞
  • 關鍵詞抽取
    提取文本中的關鍵詞
  • 詞向量和詞嵌入
    將單詞映射到低維空間中,保持單詞間相互關系不變
  • 文本生成
    給定特定文本輸入,生成需要的文本,應用於文本摘要、對話系統、機器翻譯、問答系統

研究難點

  • 中文分詞
  • 詞義消歧
    通過上下文得到不同的意思
  • 二義性
    多種理解方式的句子
  • OOV問題
    詞嵌入技術 out of vocabulary
  • 文本相似度計算
    餘弦相似度、歐式距離、曼哈頓距離、向量內積
  • 文本生成的評價指標
    BLEU ROUGE基於n-gram

社會影響

  • 社會科學
    關系網絡挖掘、社交媒體計算、人文計算
  • 金融領域
  • 法律領域
  • 醫療健康領域
  • 教育領域

NLP處理步驟

方法1:傳統機器學習的NLP流程

  • 語料預處理
    • 中文語料預處理:分詞、詞性標注、命名實體識別、去除停用詞
  • 特征工程
    • 特征提取
    • 特征選擇
  • 選擇分類器

方法2:深度學習的NLP流程

  • 語料預處理
  • 設計模型
  • 模型訓練

參考資料

知乎-自然語言處理intro
一文讀懂自然語言處理

版權聲明
本文為[美好的下午]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/01/202201280521069354.html

猜你喜歡

隨機推薦