tf算法？

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

x_train = ['TF-IDF 主要思想是','算法一個重要特點可以脫離語料庫背景',

'如果一個網(wǎng)頁被很多其他網(wǎng)頁鏈接說明網(wǎng)頁重要']

x_test=['原始文本進行標記','主要思想']

#該類會將文本中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在i類文本下的詞頻

vectorizer = CountVectorizer(max_features=10)

#該類會統(tǒng)計每個詞語的tf-idf權值

tf_idf_transformer = TfidfTransformer()

#將文本轉為詞頻矩陣并計算tf-idf

tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))

#將tf-idf矩陣抽取出來，元素a[i][j]表示j詞在i類文本中的tf-idf權重

x_train_weight = tf_idf.toarray()

#對測試集進行tf-idf權重計算

tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))

x_test_weight = tf_idf.toarray() # 測試集TF-IDF權重矩陣

print('輸出x_train文本向量：')

print(x_train_weight)

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站