from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
x_train = ['TF-IDF 主要 思想 是','算法 一個 重要 特點 可以 脫離 語料庫 背景',
'如果 一個 網(wǎng)頁 被 很多 其他 網(wǎng)頁 鏈接 說明 網(wǎng)頁 重要']
x_test=['原始 文本 進行 標記','主要 思想']
#該類會將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在i類文本下的詞頻
vectorizer = CountVectorizer(max_features=10)
#該類會統(tǒng)計每個詞語的tf-idf權值
tf_idf_transformer = TfidfTransformer()
#將文本轉為詞頻矩陣并計算tf-idf
tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
#將tf-idf矩陣抽取出來,元素a[i][j]表示j詞在i類文本中的tf-idf權重
x_train_weight = tf_idf.toarray()
#對測試集進行tf-idf權重計算
tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
x_test_weight = tf_idf.toarray() # 測試集TF-IDF權重矩陣
print('輸出x_train文本向量:')
print(x_train_weight)