中文自然語言處理預訓練時是把每個字做onehot標簽嗎

中文自然語言處理預訓練時是把每個字做onehot標簽嗎？

計算機做計算的時候，無法直接處理文字，因此需要把文字轉化為向量，一個文字和一個向量是一一對應的，類似人和人的身份證證號。onehot編碼是文字向量化的一種，但這種編碼失去文字語義，只是一種身份標記。tf-idf也可以實現詞向量，它增加了文本的統計特征，比如詞頻和逆文檔詞頻，應用很廣，效果也不錯。最流行的word2vec模型，保持了大部分的語義特征，成為nlp標準工具。最近研究熱點是bert模型，也是詞向量化的一種。這些詞向量模型往往成為其他模型輸入口，比如命名實體識別模型word2vec+bilstm+crf和bert+bilstm+crf。

juba是中文自然語言處理（NLP）工具包，實現詞向量、文檔向量、詞語相似、文檔相似、文本生成、時間序列擬合和中文命名實體識別等功能。https://github.com/lihanju/juba