网上药店
您现在的位置: 翻译官 >> 翻译官要求 >> 正文 >> 正文

详细步骤用R语言做文本挖掘

来源:翻译官 时间:2018/4/13

机器学习资料,点击底部阅读原文,手慢无

目录

Part1安装依赖包

Part2分词处理

Part3文本聚类

Part4文本分类

Part5情感分析

Part1安装依赖包

R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。

由于发布文章字数限制,,此部分详细内容,及软件下载网址,请

回复此“文本挖掘”可获取完整版

Part2分词处理

在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。

1.RWordseg功能

分词

segmentCN(c(如果你因为错过太阳而流泪,你也会错过星星))

[[1]]

[1]如果你因为错过太阳而

[8]流泪

[[2]]

[1]你也会错过星星

可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。

加词删词

insertWords(错过)

segmentCN(c(如果你因为错过太阳而流泪,你也会错过星星))

[[1]]

[1]如果你因为错过太阳而流泪

[[2]]

[1]你也会错过星星

有些情况下,你不希望某个词被分出来,例如还是“错过”这个词,这里“错”和“过”语义上已经不应该是一个词语了,所以,可以从词典中删除这个词,再添加上你需要的词语,继续做分词,效果就好多了。

segmentCN(这个错过去你可以犯,但是现在再犯就不应该了)

[1]这个错过去你可以犯但是

[8]现在再犯就不应该了

deleteWords(错过)

insertWords(过去)

segmentCN(这个错过去你可以犯,但是现在再犯就不应该了)

[1]这个错过去你可以犯但是

[8]现在再犯就不应该了

安装卸载词典

在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典,安装到R中。例如,在做新闻分析中,一些娱乐新闻里会有很多明星歌手的名字出现,这些名字在做分词时,不会被识别为一个个词。此时可能需要添加一个名字的词典,词典可以是自己建也可以从网上找。推荐从搜搜狗输入法的词库下载地址







































去哪里治白癜风好
北京治白癜风医院哪家好

转载请注明:http://www.chongqinghg.com/fygyq/1552.html