當前位置:網站首頁>NLP學習記錄(七)中文分詞

NLP學習記錄(七)中文分詞

2022-01-26 22:23:17 只想安靜的一個人

一、分詞的困難

- 分詞規範化的的問題
1. 單字詞與詞素主機的劃界
2. 短語劃界
3. “二字詞或三字詞”,以及結合緊密,使穩定的二字次或三字詞一律劃分為詞單比特

- 歧義切分問題
1. 交集型切分歧義
2. 組合型切分歧義
3. 多義組合型切分歧義

- 未登錄詞的問題
1. 人名、地名、組織名
2. 新出的詞匯
3. 術語、俗語、命名體識別

二、 分詞的方法

1. 正向最大匹配(FMM)
假設分詞詞典中的最長詞由i個漢字字符組成,則 用被處理文檔的當前字符串中前i個字作為匹配 字段查找詞典。若詞典中存在這樣一個字詞,則 匹配成功,匹配字段作為一個詞被切分出來,否則 匹配失敗。應將匹配字段中的最後一個字去掉, 對剩下的字串重新進行匹配處理。如此進行下 去,直到匹配成功。然後取下一個字字串進行匹 配處理,直到文檔被掃描完為止。
參考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543
2. 逆向最大匹配(BMM)
逆向最大匹配分詞是中文分詞基本算法之一,因為是機械切分,所以它也有分詞速度快的優點,且逆向最大匹配分詞比起正向最大匹配分詞更符合人們的語言習慣。逆向最大匹配分詞需要在已有詞典的基礎上,從被處理文檔的末端開始匹配掃描,每次取最末端的i個字符(分詞所確定的閾值i)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。而且選擇的閾值越大,分詞越慢,但准確性越好
參考博客:https://blog.csdn.net/lalalawxt/article/details/75477931
3. 雙向匹配
將正向最大匹配與逆向最大匹配兩種算法都切一遍,然後根據大顆粒度詞越多越好,非詞典詞和單字詞越少越好的原則,選取其中一種分詞結果輸出。
參考博客:http://blog.sina.com.cn/s/blog_53daccf401011t74.html
4. 逐詞遍曆
5. 基於詞錶的分類

三、漢語分詞的方法介紹

1. N-最短路徑方法
該算法算法基本思想很簡單,就是給定一待處理字串,根據詞典,找出詞典中所有可能的詞,構造出字串的一個有向無環圖,算出從開始到結束所有路徑中最短的前N條路徑。因為允許相等長度的路徑並列,故最終的結果集合會大於或等於N。
參考博客:https://blog.csdn.net/shijing_0214/article/details/51494034
2. 基於詞的N元語法模型(n-gram)的漢語分詞方法
n-gram是一種統計語言模型,用來根據前(n-1)個item來預測第n個item。在應用層面,這些item可以是音素(語音識別應用)、字符(輸入法應用)、詞(分詞應用)或堿基對(基因信息)。一般來講,可以從大規模文本或音頻語料庫生成n-gram模型。
參考博客:https://blog.csdn.net/ahmanz/article/details/51273500
3. 由字構成的漢語分詞方法
基於字標注的方法的實際上是構詞方法,即把分詞過程視為字在一串字的序列中的標注問題。由於每個字在構造成詞的時候,都有一個確定的比特置。也即對於詞中的一個字來說,它只能是詞首字、詞中字、詞尾字或單字詞一個身份。
字構成詞的比特置(詞比特)
B–詞首 詞中–M
E–詞尾 單字詞–S
4. 基於詞感知機算法的漢語分詞方法
感知器算法是一個可以解决二分類問題的線性分類模型,其模型對於我這樣一個初學者來說都是很容易就可以理解的。基礎的二分類感知器這裏不再多做介紹,我們把目光轉向分詞算法所需的多類感知器算法身上。

多類感知器是感知器算法用於解决多類分類問題時的一個擴展,它的主要思想是:用多個感知器去進行多類分類,但每個感知器只將一類目標視為正例,而其他的目標均視為負例。
參考博客:https://blog.csdn.net/noter16/article/details/53501843
5. 基於字的生成式模型和區分式模型相結合的漢語分詞方法

版權聲明
本文為[只想安靜的一個人]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/01/202201262223174442.html

隨機推薦