欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

python 獲取停用詞

Python是一種非常強(qiáng)大的編程語(yǔ)言,有著龐大的生態(tài)系統(tǒng)和海量的第三方庫(kù)。在自然語(yǔ)言處理中,獲取停用詞是必不可少的一步。那么在Python中如何獲取停用詞呢?

# 導(dǎo)入nltk庫(kù)
import nltk
# 從nltk中下載停用詞
nltk.download('stopwords')
# 導(dǎo)入停用詞
from nltk.corpus import stopwords
# 獲取英文停用詞
stopwords_eng = stopwords.words('english')
# 獲取中文停用詞
stopwords_cn = []
with open('stopwords_cn.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords_cn.append(line.strip())
# 將停用詞保存到文件
with open('stopwords_eng.txt', 'w', encoding='utf-8') as f1:
for word in stopwords_eng:
f1.write(word + '\n')
with open('stopwords_cn.txt', 'w', encoding='utf-8') as f2:
for word in stopwords_cn:
f2.write(word + '\n')

上述代碼中,我們使用了Python中的nltk庫(kù)來(lái)下載和導(dǎo)入停用詞。獲取英文停用詞只需要調(diào)用stopwords.words('english')即可。而中文停用詞我們需要事先準(zhǔn)備好一個(gè)文本文件,然后通過(guò)讀取文件的方式來(lái)獲取停用詞。

獲取到停用詞后,我們可以將其保存到文件中,以便以后多次使用時(shí)直接調(diào)用即可。同時(shí),我們還可以根據(jù)具體需求對(duì)停用詞進(jìn)行擴(kuò)充或減少。