中文自然語言處理預訓練時是把每個字做onehot標簽嗎?
計算機做計算的時候,無法直接處理文字,因此需要把文字轉化為向量,一個文字和一個向量是一一對應的,類似人和人的身份證證號。onehot編碼是文字向量化的一種,但這種編碼失去文字語義,只是一種身份標記。tf-idf也可以實現詞向量,它增加了文本的統計特征,比如詞頻和逆文檔詞頻,應用很廣,效果也不錯。最流行的word2vec模型,保持了大部分的語義特征,成為nlp標準工具。最近研究熱點是bert模型,也是詞向量化的一種。這些詞向量模型往往成為其他模型輸入口,比如命名實體識別模型word2vec+bilstm+crf和bert+bilstm+crf。
juba是中文自然語言處理(NLP)工具包,實現詞向量、文檔向量、詞語相似、文檔相似、文本生成、時間序列擬合和中文命名實體識別等功能。https://github.com/lihanju/juba
juba的命名實體識別模型使用的是bert+bilstm+crf,可以試一試效果。