欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

tf算法

林玟書2年前26瀏覽0評論

tf算法?

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfTransformer

x_train = ['tf-idf 主要 思想 是','算法 一個 重要 特點 可以 脫離 語料庫 背景',

'如果 一個 網頁 被 很多 其他 網頁 鏈接 說明 網頁 重要']

x_test=['原始 文本 進行 標記','主要 思想']

#該類會將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在i類文本下的詞頻

vectorizer = CountVectorizer(max_features=10)

#該類會統計每個詞語的tf-idf權值

tf_idf_transformer = TfidfTransformer()

#將文本轉為詞頻矩陣并計算tf-idf

tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))

#將tf-idf矩陣抽取出來,元素a[i][j]表示j詞在i類文本中的tf-idf權重

x_train_weight = tf_idf.toarray()

#對測試集進行tf-idf權重計算

tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))

x_test_weight = tf_idf.toarray() # 測試集TF-IDF權重矩陣

print('輸出x_train文本向量:')

print(x_train_weight)

css中import權重,tf算法