永发信息网

如何用词向量做文本分类

答案:2  悬赏:80  手机版
解决时间 2021-02-06 21:05
如何用词向量做文本分类
最佳答案
先确定主题,然后根据主题将属性挖掘出来。用属性的关联度作为距离,来对文本进行分类
全部回答
  • 最近正好组内做了一个文档相似度的分享。决定回答一发。 首先,如果不局限于nn的方法,可以用bow+tf-idf+lsi/lda的体系搞定,也就是俗称的01或one hot representation。 其次,如果楼主指定了必须用流行的nn,俗称word-embedding的方法,当然首推word2vec(虽然不算是dnn)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stop word,词聚类处理一下。 还有,doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《distributed representations of sentences and documents》(icml 2014)。 还有一种根据句法树加权的方式,是icml2011提出的,见论文《parsing natural scenes and natural language with recursive neural networks》,后续也有多个改编的版本。 当然,得到词向量的方式不局限于word2vec,rnnlm和glove也能得到传说中高质量的词向量。 icml2015的论文《from word embeddings to document distances, kusner, washington university》新提出一种计算doc相似度的方式,大致思路是将词之间的余弦距离作为ground distance,词频作为权重,在权重的约束条件下,求wmd的线性规划最优解。 最后,kaggle101中的一个word2vec题目的tutorial里作者如是说:他试了一下简单加权和各种加权,不管如何处理,效果还不如01,归其原因作者认为加权的方式丢失了最重要的句子结构信息(也可以说是词序信息),而doc2vec的方法则保存了这种信息。 在刚刚结束的acl2015上,似乎很多人提到了glove的方法,其思想是挖掘词共现信息的内在含义,据说是基于全局统计的方法(lsi为代表)与基于局部预测的方法(word2vec为代表)的折衷,而且输出的词向量在词聚类任务上干掉了word2vec的结果,也可以看看。《glove: global vectors forword representation》
  • 我要举报
    如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
    大家都在看
    求解一个内涵段子
    某公司的变动成本率为60%,资本成本为10%。为
    渔业村在什么地方啊,我要过去处理事情
    精功眼镜地址好找么,我有些事要过去
    有首日本(韩国)歌,MV里大概讲的是一群人干
    陕西宝鸡举报教师电话?
    增城区交通运输协会地址在什么地方,想过去办
    凤鸣眼镜店(昭庆店)地址在哪,我要去那里办事
    【力的正交分解】力的正交分解方法和步骤?
    14K黄金耳环过敏的人对18K黄金耳环过敏吗?
    武林立志传 怎样卖物品
    燕府燕窝我想知道这个在什么地方
    元明眼镜店地址在什么地方,想过去办事
    过年不打烊是什么意思
    盛恩房产地址在哪,我要去那里办事
    推荐资讯
    锦源时代广场地址在什么地方,想过去办事
    如图是用火柴棍摆成的边长分别是1,2,3根火柴
    九江海源化工有限公司这个地址在什么地方,我
    讶怎么组词(最少99个词语,最多10000个词语
    许昌怎么样?
    如何分析新闻主题?
    【高级英语词汇】一个高级英语翻译的词汇量应
    皮肤好干啊,擦了粉饼就褪皮一样,结婚那天咋办
    徐州市鼓楼区九里街道办事处拾东村民委员会我
    河南省永城市环境资源工程公司地址在什么地方
    泗阳县三庄乡中学地址在什么地方,想过去办事
    东方红书法培训怎么去啊,我要去那办事
    正方形一边上任一点到这个正方形两条对角线的
    阴历怎么看 ?