Python中使用詞向量技術可以有效地進行自然語言處理。其中,詞向量是用數字向量表示語料庫中的單詞或文檔。在Python中,使用gensim庫可以實現詞向量的訓練和應用。
import gensim from gensim.models import Word2Vec sentences = [['this', 'is', 'a', 'sentence'], ['this', 'is', 'another', 'sentence']] model = Word2Vec(sentences, size=100, window=5, min_count=1, workers=4)
上述代碼中,首先導入gensim庫并引入Word2Vec模型。然后,定義一個由兩個句子組成的列表sentences作為訓練語料。Word2Vec模型的五個參數分別是:
- size:生成的詞向量的維度
- window:考慮語境的窗口大小
- min_count:單詞最小出現次數
- workers:訓練用的線程數
vector = model.wv['sentence'] print(vector)
上述代碼中,利用訓練好的模型可以得到單詞'sentence'的詞向量,并打印輸出。輸出的是一個100維的浮點型向量。
除此之外,還可以使用計算歐氏距離或余弦距離的方法來衡量兩個單詞或文檔間的相似度。
similarity = model.wv.similarity('sentence', 'another') print(similarity)
上述代碼中,計算了單詞'sentence'和'another'之間的余弦相似度,并打印輸出。
總之,使用Python的gensim庫可以輕松地實現詞向量的訓練和應用,有效地進行文本數據處理。