當前位置:網站首頁>(pycharm)安裝nltk包

(pycharm)安裝nltk包

2022-05-14 05:40:48SiYuanFeng

參考資料網址

大家可以直接看這些原作者的網址,我整合只是為了加深記憶,方便自己下次查閱
NLTK數據包快速安裝(好文)
NLTK_GITHUB網址(數據包地址)
NLTK官方文檔(這裏幾個入門示例不錯)
NLTK官方文檔安裝NLTK(建議不看,沒這麼複雜,看前面的帖子)

安裝流程

我們先在pycharm的項目環境中安裝上nltk
點擊file->settings
在這裏插入圖片描述
在點擊Python Interpreter,點擊加號添加nltk
在這裏插入圖片描述
搜索nltk,點擊Install Package 安裝
在這裏插入圖片描述
接下來我們要安裝nltk_data數據包才能使用nltk

手動安裝nltk

實際上nltk_data數據包可以直接在pycharm裏使用這兩行代碼自動安裝(先在pycharm的setting裏加上nltk)

import nltk
nltk.download()

但是這麼安裝的同學們肯定會發現,但當我們在pycharm中運行這兩行代碼時,往往會提示getaddrinfo failed

這是因為這裏自動彈出的server index裏提供的網址找不到對應的IP
在這裏插入圖片描述

找到server index 的對應的IP,自動安裝的方法在下一節會介紹。因為自動安裝很緩慢,筆者選擇了手動安裝

點擊進入NLTK_DATA_github官方網址,依次點擊Code->Download Zip下載安裝包

接著在pycharm中輸入

import nltk
from nltk_book import *

因為我們此時還沒有安裝nltk_data安裝包,它會提示找不到數據,並且提示他找數據時的默認路徑:下方這幾條

  • ‘C:\Users\dell/nltk_data’ (這一條不同電腦不一樣)
  • ‘C:\nltk_data’
  • ‘D:\nltk_data’
  • ‘E:\nltk_data’
  • ‘D:\python36\venv\nltk_data’
  • ‘D:\python36\venv\lib\nltk_data’
  • ‘C:\Users\dell\AppData\Roaming\nltk_data’

所以我們把nltk_data安裝包裏packages裏的這些文件解壓到上述任意路徑即可,筆者解壓到了’D:\nltk_data’
在這裏插入圖片描述
接下來,我們運行這兩行代碼試驗一下有沒有安裝成功

import nltk
from nltk.book import *

可以看到,示例文件成功運行,已經成功安裝了nltk,接下來就可以用nltk實現自己想要實現的功能了
在這裏插入圖片描述
不過要注意!
不過,要注意一點,在Github上下載的這個壓縮數據包,裏面的一些子文件夾下還有壓縮內容,例如,如果調用nltk進行句子分割,會用到這個函數: word_tokenize()

import nltk

sen = 'hello, how are you?'
res = nltk.word_tokenize(sen)
print(res)

會提示 Resource punkt not found. Please use the NLTK Downloader to obtain the resource:
punkt數據未找到:

類似這樣的錯誤,其實如果找到查找的路徑,也就是上面我們放數據包的地方,是可以在tokenizers文件夾下找到這個punkt的,原因就在於沒有解壓,那麼,把punkt.zip解壓到文件夾中,再運行分割句子的代碼就沒問題了。如果有其他的一些數據也是這樣的,如果遇到顯示沒有找到某個數據包,不妨試一試。(如果打開其他的文件夾,發現裏面也有未解壓的那些文件,我們可以手動將其解壓)

使用pycharm自動安裝nltk

回到剛才我們運行這兩行代碼的這一步

import nltk
nltk.download()

當在pycharm中運行這兩行代碼時,往往會提示getaddrinfo failed,即找不到IP地址

方法一:科學上網之後再安裝

親測直接就可以開始下載
在這裏插入圖片描述

方法二:更改這個下載網址的IP

nltk庫download()出現[Error 11004]getaddrinfo failed解决方法

NLTK下載語料包報錯Error 11004 getaddrinfo failed及其解决方法

版權聲明
本文為[SiYuanFeng]所創,轉載請帶上原文鏈接,感謝
https://cht.chowdera.com/2022/134/202205140509162010.html

隨機推薦