机器学习资料,点击底部阅读原文,手慢无
目录
Part1安装依赖包
Part2分词处理
Part3文本聚类
Part4文本分类
Part5情感分析
Part1安装依赖包
R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。
由于发布文章字数限制,,此部分详细内容,及软件下载网址,请
回复此“文本挖掘”可获取完整版
Part2分词处理
在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。
1.RWordseg功能
分词
segmentCN(c(如果你因为错过太阳而流泪,你也会错过星星))
[[1]]
[1]如果你因为错过太阳而
[8]流泪
[[2]]
[1]你也会错过星星
可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。
加词删词
insertWords(错过)
segmentCN(c(如果你因为错过太阳而流泪,你也会错过星星))
[[1]]
[1]如果你因为错过太阳而流泪
[[2]]
[1]你也会错过星星
有些情况下,你不希望某个词被分出来,例如还是“错过”这个词,这里“错”和“过”语义上已经不应该是一个词语了,所以,可以从词典中删除这个词,再添加上你需要的词语,继续做分词,效果就好多了。
segmentCN(这个错过去你可以犯,但是现在再犯就不应该了)
[1]这个错过去你可以犯但是
[8]现在再犯就不应该了
deleteWords(错过)
insertWords(过去)
segmentCN(这个错过去你可以犯,但是现在再犯就不应该了)
[1]这个错过去你可以犯但是
[8]现在再犯就不应该了
安装卸载词典
在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典,安装到R中。例如,在做新闻分析中,一些娱乐新闻里会有很多明星歌手的名字出现,这些名字在做分词时,不会被识别为一个个词。此时可能需要添加一个名字的词典,词典可以是自己建也可以从网上找。推荐从搜搜狗输入法的词库下载地址去哪里治白癜风好北京治白癜风医院哪家好
转载请注明:http://www.chongqinghg.com/fygyq/1552.html