Python是一種非常強(qiáng)大的編程語(yǔ)言,有著龐大的生態(tài)系統(tǒng)和海量的第三方庫(kù)。在自然語(yǔ)言處理中,獲取停用詞是必不可少的一步。那么在Python中如何獲取停用詞呢?
# 導(dǎo)入nltk庫(kù) import nltk # 從nltk中下載停用詞 nltk.download('stopwords') # 導(dǎo)入停用詞 from nltk.corpus import stopwords # 獲取英文停用詞 stopwords_eng = stopwords.words('english') # 獲取中文停用詞 stopwords_cn = [] with open('stopwords_cn.txt', 'r', encoding='utf-8') as f: for line in f: stopwords_cn.append(line.strip()) # 將停用詞保存到文件 with open('stopwords_eng.txt', 'w', encoding='utf-8') as f1: for word in stopwords_eng: f1.write(word + '\n') with open('stopwords_cn.txt', 'w', encoding='utf-8') as f2: for word in stopwords_cn: f2.write(word + '\n')
上述代碼中,我們使用了Python中的nltk庫(kù)來(lái)下載和導(dǎo)入停用詞。獲取英文停用詞只需要調(diào)用stopwords.words('english')即可。而中文停用詞我們需要事先準(zhǔn)備好一個(gè)文本文件,然后通過(guò)讀取文件的方式來(lái)獲取停用詞。
獲取到停用詞后,我們可以將其保存到文件中,以便以后多次使用時(shí)直接調(diào)用即可。同時(shí),我們還可以根據(jù)具體需求對(duì)停用詞進(jìn)行擴(kuò)充或減少。