永发信息网

如何去掉分词结果中的停用词

答案:2  悬赏:70  手机版
解决时间 2021-02-21 22:46
如何去掉分词结果中的停用词
最佳答案
-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用词文件是utf8编码
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码,先将其转成utf8编码
全部回答
查找指定目录下的xml文件;读取xml内容并赋值给String变量;把String变量进行分词、过滤等操作;把得到的新String变量写入文件,并保存。上面几个步骤,你似乎只完成了第三步啊。第二和第四步,你应该可以很容易网上找到。第一步,涉及文件过滤,可能用得少,我贴点以前的代码吧,刚好是查找系统配置xml文件的。File[] _files = dir.listFiles( // dir为File类型的目录变量new FilenameFilter() {public boolean accept(File dir,String file){ if (file.toLowerCase().endsWith(".xml")){ return true; }else{ return false; } } } );List files = Arrays.asList(_files);
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
等腰三角形的周长为18cm,若腰长为ycm 底边长
电脑24小时开机,能费多少度电
遇到不讲理的娘家人该咋办?
基研电子(G&J)公司在哪里啊,我有事要去这个
香肠放冰箱里发黄还能吃吗
尚客优快捷酒店宁化客家文化城店地址在哪,我
“封建制度最重要的问题是权力的继承……但父
上虞区公安局盖北边防派出所我想知道这个在什
邮政信用卡持卡人账单日期是什么意思
【泰坦尼克号事件】泰坦尼克号遇难作业本答案
鸿发家具在哪里啊,我有事要去这个地方
抑郁质的性格情绪容易不稳定,易受感情支配。
努比亚z7max怎么刷miui7内存不变小
诛仙升级9阶太虚锦囊
北京汽车研究总院有限公司西门地址在哪,我要
推荐资讯
现在哪能买到只能打电话的便宜卡
三角阀接水管头处滴水怎么修
你们感觉同学聚会AA制,每人300元多不多?
设计条件1.拟建停车场用地界线如图。2.垂直停
电视乐华29纯平开机保护,指示灯一闪一闪?
有没有和STC89C52RC引脚一样但P0口不用加上拉
电表采集器能传播监控信息?
严重冻僵时,体温为()
面包世家地址有知道的么?有点事想过去
新乡原阳鑫源花园毛坯房大概多少钱一平,四楼
下列关于商品销售收入确认的表述,正确的有(
血虚肝郁的脉象是A.细数B.沉细C.弦细D.沉弦E.
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?