如何利用Python对中文进行分词处理

答案:2 悬赏:60 手机版

解决时间 2021-12-31 20:48

提问者网友：相思似海深
2021-12-31 00:27

如何利用Python对中文进行分词处理

最佳答案

五星知识达人网友：怀裏藏嬌
2021-12-31 01:58

pip install -U textblob#英文文本的情感分析
pip install snownlp#中文文本的情感分析

from snownlp import SnowNLP
text = "I am happy today. I feel sad today."
from textblob import TextBlob
blob = TextBlob(text)
TextBlob("I am happy today. I feel sad today.")
blob.sentiment
Sentiment(polarity=0.15000000000000002, subjectivity=1.0)

s = SnowNLP(u'这个东西真心很赞')

s.words         # [u'这个', u'东西', u'真心',
                #  u'很', u'赞']

s.tags          # [(u'这个', u'r'), (u'东西', u'n'),
                #  (u'真心', u'd'), (u'很', u'd'),
                #  (u'赞', u'Vg')]

s.sentiments    # 0.9769663402895832 positive的概率

s.pinyin        # [u'zhe', u'ge', u'dong', u'xi',
                #  u'zhen', u'xin', u'hen', u'zan']

s = SnowNLP(u'「繁体字」「繁体中文」的叫法在台湾亦很常见。')

s.han           # u'「繁体字」「繁体中文」的叫法
                # 在台湾亦很常见。'

全部回答

1楼网友：詩光轨車
2021-12-31 02:38

1、全局变量在函数中使用时需要加入global声明 2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为gb2312，当匹配到的中文写入文件时需要encode成gb2312写入文件。 3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组 4、key，value值可以使用dict存储，排序后可以使用list存储 5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词 6、命令行使用需要导入os,os.system(cmd)

我要举报

如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！