如何在java中去除中文文本的停用詞?
用JAVA api打開文本文件,循環(huán)遍歷文件中的內(nèi)容,遇到停用詞就將它替換成空即可。
停用詞簡(jiǎn)介:在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動(dòng)化生成的,生成后的停用詞會(huì)形成一個(gè)停用詞表。但是,并沒有一個(gè)明確的停用詞表能夠適用于所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
Java簡(jiǎn)介:Java是一種可以撰寫跨平臺(tái)應(yīng)用程序的面向?qū)ο蟮某绦蛟O(shè)計(jì)語言。Java 技術(shù)具有卓越的通用性、高效性、平臺(tái)移植性和安全性,廣泛應(yīng)用于PC、數(shù)據(jù)中心、游戲控制臺(tái)、科學(xué)超級(jí)計(jì)算機(jī)、移動(dòng)電話和互聯(lián)網(wǎng),同時(shí)擁有全球最大的開發(fā)者專業(yè)社群。