当前位置:首页 > 美文 > 情感 > 正文
文章正文

r语言中文情感分析

美文 > 情感 > :r语言中文情感分析是由美文导刊网(www.eorder.net.cn)为您精心收集,如果觉得好,请把这篇文章复制到您的博客或告诉您的朋友,以下是r语言中文情感分析的正文:

r语言中文情感分析篇一

R语言文本挖掘

中文及英文的文本挖掘——R语言

所需要的包tm(text mining) rJava,Snowball,zoo,XML,slam,Rz, RWeka,matlab 1 文本挖掘概要

文本挖掘是从大量的文本数据中抽取隐含的,求和的,可能有用的信息。 通过文本挖掘实现

•Associate:关联分析,根据同时出现的频率找出关联规则

•Cluster:将相似的文档(词条)进行聚类

•Categorize:将文本划分到预先定义的类别里

•文档自动摘要:利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯描述性短文。

文本挖掘的运用主要有如下几方面

 智能信息检索

同义词,简称词,异形词,同音字、赘字移除

 网络内容安全

内容监控

内容过滤

 内容管理

自动分类

检测和追踪

 市场监测

口碑监测

竞争情报系统

市场分析

2 英文文本挖掘实例

实现多个英文文档的聚类分析

2.1 文本预处理

2.1.1 读取文本内容

#取得tm内部文件texts/crude/下的文件目录。

>library("tm",lib.loc="d:/ProgramFiles/R/R-3.0.3/library")

> vignette("tm")#获取相关帮助文档的内容,pdf格式

reut<-system.file("texts","crude",package='tm')

# 用Corpus命令读取文本并生成语料库文件由于要读取的是xml文件,所以需要xml包 reuters <- Corpus(DirSource(reut), readerControl = list(reader =

readReut21578XML))

# DirSource指示的是文件夹路径,如果是单个向量要设为语料库则VectorSource(向量名) readerControl不用设置

查看前两个语料变量内容

另外可以从本地文件中读取用户txt文件

> inputtest<-read.csv(file.choose())

2.1.2 文本清理

对于xml格式的文档用tm_map命令对语料库文件进行预处理,将其转为纯文本并去除多余空格,转换小写,去除常用词汇、合并异形同意词汇,如此才能得到类似txt文件的效果 需要用到的包SnowballC

reuters <- tm_map(reuters, PlainTextDocument)#去除标签

reuters <- tm_map(reuters, stripWhitespace)#去多余空白

reuters <- tm_map(reuters, tolower)#转换小写

reuters <- tm_map(reuters, removeWords, stopwords("english"))

tm_map(reuters, stemDocument)

2.1.3 查找含有特定语句的文档

例如找出文档编号为237而且包含句子INDONESIA SEEN AT CROSSROADS OVER ECONOMIC CHANGE的文档。

> query <- "id == '237' & heading == 'INDONESIA SEEN AT CROSSROADS OVER ECONOMIC CHANGE'" > tm_filter(reuters, FUN = sFilter, query)

找到

由于语料库已经将大小写转换以及将介词类删除所以对应的语句只是特有单词的组合。

2.1.4 生成词频矩阵并查看内容

dtm <- DocumentTermMatrix(reuters)

查看某部分的词频内容个数,其中dtm行提示哪个文件,列表示词语。

> inspect(dtm[10:15,110:120])

A document-term matrix (6 documents, 11 terms)

Non-/sparse entries: 6/60

Sparsity : 91%

Maximal term length: 9

Weighting : term frequency (tf)

Terms

Docs activity. add added added. address addressed adherence adhering advantage advisers agency [1,] 0 0 0 0 0 0 1 1 0 0 2

[2,] 0 0 0 0 0 0 0 0 0 0 0

[3,] 0 0 0 0 0 0 0 0 0 0 1

[4,] 0 0 0 0 0 0 0 1 0 0 2

[5,] 0 0 0 0 0 0 0 0 0 0 0

[6,] 0 0 0 0 0 0 0 0 0 0 0

2.1.5 查看含有特定词的文档

若要考察多个文档特定词汇的出现频率或以手工生成字典,并将其作为生成阵的参数 > inspect(tdm[c("price", "texas"),c("127","144","191","194")])

A term-document matrix (2 terms, 4 documents)

Non-/sparse entries: 6/2

Sparsity : 25%

Maximal term length: 5

Weighting : term frequency (tf)

Docs

Terms 127 144 191 194 price 2 1 2 2

texas 1 0 0 2

> inspect(DocumentTermMatrix(reuters,

+ list(dictionary = c("prices", "crude", "oil"))))

A document-term matrix (20 documents, 3 terms)

Non-/sparse entries: 41/19

Sparsity : 32%

Maximal term length: 6

Weighting : term frequency (tf)

Terms

Docs crude oil prices

127 3 5 4

144 0 11 4

191 3 2 0

194 4 1 0

211 0 2 0

236 1 7 2

237 0 3 0

2.1.6 元数据操作(词元素)

2.1.6.1 查看词条出现次数大于某个具体值的词

findFreqTerms(dtm,5)#查看出现频大于等于5的词

2.1.6.2 查看与某一词相关度大于0.8的词条

> findAssocs(dtm,'opec',0.8)

opec

meeting 0.88

15.8 0.85

oil 0.85

emergency 0.83

analysts 0.82

buyers 0.80

2.1.7 处理词频矩阵

> dtm2<-removeSparseTerms(dtm,sparse=0.95) //parse值越少,最后保留的term数量就越少0.95是指如果某一词出现在文档的概率少于(1-0.95)则不再保留到词频矩阵。即删除权重少的元素。

r语言中文情感分析篇二

R语言 主要分析的各个包汇总

R语言 主要分析的各个包汇总{r语言中文情感分析}.

r语言中文情感分析篇三

R语言在做为数据分析工具的优点

R语言在做为数据分析工具的优点

数据分析微信公众号 datadw分享优质学习资源,推荐关注。

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具。三年前,我开始接触到 R,一开始因为功能太多而坚决抵制使用。后来我开始琢磨如何使用。现在我基本不怎么使用 Excel 了。这只是我个人的观点,但是如果你要分析数据,R 更胜任这项任务。下面来说说为什么 R 更适合数据分析。

这两款工具的使用方法截然不同。使用 Excel 时,可以通过鼠标点击完成大部分工作,你可以访问界面内不同位置的各种工具。因此 Excel{r语言中文情感分析}.

非常便于使

用(熟能生巧),但是用 Excel 处理数据非常费时,而且如果接手一个新项目,你必须单调地重复这些流程。使用 R 时,则通过代码完成所有操作。你把数据载入内存,然后运行脚本来研究并处理数据。这个工具可能不够人性化,但是有以下几点好处。

我认为,从概念上来说,R 更便于使用。如果你在处理多列数据,虽然你只是在处理单个任务,但是却会看到所有的数据。而使用 R 时,数据都在内存中,只有调出数据才能看到。如果你在转换或计算,你会处理相关列或行的子集,其他所有数据都在后台。我觉得这样更便于关注手头的任务。完成任务后,可将其保存在某个数据帧中,其中只包含所需的列或行数据。你建立了正确的数据集,可解决当前的问题。这样做看似无关紧要,但实际上大受裨益。

借助 R,就可以对其他数据集轻松重复相同的操作。因为所有数据都是通过代码进行处理和研究,因此对新的数据集执行相同的操作也就轻而易举了。使用 Excel 时,大多数操作都是通过鼠标点击实现,虽然用户体验不错,但对新的数据重复操作却非常费时而枯燥。而 R 只需载入新的数据集,然后再次运行脚本即可。

实际上,用代码操作也便于诊断并共享你的分析结果。使用 Excel 时,大多数的分析结果都基于内存(数据透视表在这里,公式编辑器在另一个表格上等)。而在 R 中,通过代码执行所有操作,一目了然。如果你在修正一个错误,你很清楚在哪里操作,而如果你需要共享分析结果,只需复制粘贴代码即可。在线查

找帮助时,你能准确说明所用数据,并提出具体的问题。事实上,大多数时候,你在线提问时,人们都是直接贴出准确的代码,来解决你的问题。

R 中的项目组织更简单。在 Excel 中,我要准备一系列表格,可能还要准备多个工作簿,然后适当命名,而且各文件名不得重复。我的项目备注分别保存在各个文件中。我的 R 项目组织单独设有一个文件夹,我处理过的所有内容都放在其中。清理数据、探索性图表及模型。这样便于我理解和查找,也为与我一起工作的其他人提供方便。当然,Excel 也能做到井井有条。我觉得 R 的简洁性更便于使用。

上述几点只能说是锦上添花,而并不是必不可少。在没有这些功能之前,我也用了好几年 Excel,你应该也一样。现在,我想讲讲 R 和 Excel 真正的区别。我想说的是,除了以上那些花哨的小优势之外,R 更适合用于数据分析。原因如下。

你可以把任何数据载入 R。数据的保存位置或保存形式并不重要。你可以载入 CSV 文件,也可以读取 JSON,或者执行 SQL 查询,抑或提取网站。你甚至还可以在 R 中通过 Hadoop 处理大数据。

R 是一个完整的工具集,使用的是数据包。在分析数据时,R 比 Excel 更实用。你可使用 R 执行数据管理、分类和回归,也可以处理图片,并执行其他所有操作。如果机器学习是你的专业,那能想到的任何算法都是小菜一碟。目前,

R 可用的数据包逾 5,000 个,因此无论你要处理什么类型的数据,R 都能应付自如。

R 的数据可视化效果非常卓越。说句实话,Excel 的图表非常出色,简单易懂。但 R 的效果更好。我觉得这是 R 最实用的功能之一。借助 ggplot2,你可以快速创建所需的各种图表,并根据图表形状自行调整。在你熟悉了如何用 ggplot2 创建一个图表后,任何其他图表都不在话下。ggplot2 还能制作更多类型的图表。你能用 Excel 创建散点图矩阵吗?用 R 就能轻松创建这种矩阵,CDF plot 也是如此。Excel 棋差一招。

Git 版本控制。我一向习惯保存多个版本的分析结果。Git 是至今为止我找到的最好用的工具。我使用 RStudio 作为编辑器,其支持项目。创建一个项目仓库,然后你就能跟踪数据研究的不同版本。你可以创建不同版本的 Excel 文件,但是这些保存的二进制文件无法显示相互之间的更改部分。而 R 非常简单。

我已经说了很多理由。总之,Excel 是一款不错的数据分析工具。我相信它能不负众望完成所有任务。但是,如果你只有这一款工具,则会大大影响你的工作效率。相比之下,R 更好用,而且提供的工具集模块更完整。而缺点在于不是非常易于上手,用户一开始相对要花很多时间学习使用。如果坚持下去,就会有所收获,不仅对数据更了解,还提高了自己的能力。

r语言中文情感分析篇四

R语言常用计量分析包

R语言常用计量分析包

CRAN任务视图:计量经济学

线形回归模型(Linear regression models)

线形模型可用stats包中lm()函数通过OLS来拟合,该包中也有各种检验方法用来比较模型,如:summary() 和anova()。

lmtest包里的coeftest()和waldtest()函数是也支持渐近检验(如:z检验而不是检验,卡方检验而不是F检验)的类似函数。

car包里的linear.hypothesis()可检验更一般的线形假设。

HC和HAC协方差矩阵的这些功能可在sandwich包里实现。

car和lmtest包还提供了大量回归诊断和诊断检验的方法。

工具变量回归(两阶段最小二乘)由AER包中的ivreg()提供,其另外一个实现sem包中的tsls()。

微观计量经济学(Microeconometrics)

许多微观计量经济学模型属于广义线形模型,可由stats包的glm()函数拟合。包括用于选择类数据(choice data)的Logit和probit模型,用于计数类数据(count data)的poisson模型。这些模型回归元的值可用effects获得并可视化。{r语言中文情感分析}.

负二项广义线形模型可由MASS包的glm.nb()实现。aod包提供了负二项模型的另一个实现,并包含过度分散数据的其它模型。

边缘(zero-inflated)和hurdle计数模型可由pscl包提供。

多项响应(Multinomial response):特定个体协变量(individual-specific covariates)多项模型只能由nnet包中multinom()函数提供。mlogit包实现包括特定个体和特定选择(choice-specific)变量。多项响应的广义可加模型可由VGAM包拟合。针对多项probit模型的贝叶斯方法由MNP包提供,各种贝叶斯多项模型(包括logit和probit)在bayesm包中可得。

顺序响应(Ordered response):顺序响应的比例优势回归由MASS包中polr()函数实现。包ordinal为顺序数据(ordered data)提供包括比例优势模型(propotional odds models)以及更一般规范的累积链接模型(cumulative link models)。贝叶斯顺序probit模型由包bayesm提供。

删失响应(Censored response):基本删失回归模型(比如,tobit模型)可以由survival包中

的suevreg()函数拟合,一个便利的接口tobit()在AER包中。更深入的删失回归模型,包括面板数据的模型,由censReg包提供,样本选择的模型在sampleSelection包中可得。

杂项:有关微观计量经济学得进一步精细工具由micEcon族包提供:Cobb-Douglas分析、translog、二次函数在micEcon里;规模弹性不变(Constant Elasticity of Scale,CES)函数在micEconCES里;对称归一二次利润(Symmetric Normalized Quadratic Profit,SNQP)函数在micEconSNQP里;几乎理想的需求函数模型系统(Almost Ideal Demand System ,AIDS)函数在micEconAids包里;随机前沿分析(Stochastic Frontier Analysis)在frontier包中;bayesm包执行微观计量济学和营销学(marketing)中的贝叶斯方法;相对分布推断在包reldist里。

其它的回归模型(Further regression models)

非线性最小二乘回归建模可用stats包里的nls()实现。

分位数回归(Quantile Regression):quantreg(包括线性、非线性、删失、局部多项和可加分位数回归)。

面板数据的线性模型:plm。一个空间面板模型的包(splm)正在R-Forge开发。

广义动量方法(Generalized method of moments,GMM)和广义实证似然(generalized empirical likelihood,GEL):gmm。

线性结构方程模型:sem,包括两阶段最小二乘。

联立方程估计:systemfit。

非参核方法:np。

Beta回归:betareg和gamlss

截位(高斯)回归:truncreg。

非线性混合效应模型:nlme和lme4。

广义可加模型:mgcv、gam、gamlss和VGAM。{r语言中文情感分析}.

杂项:包VGAM、Design和Hmisc包提供了若干(广义)线性模型处理的扩展工具,Zelig是一个针对很多种回归模型的易于使用的统一接口。

基本的时间序列架构(Basic time series infrastructure)

stats包的“ts” 类是R的规则间隔时间序列的标准类(尤其是年度、季度和月度数据)。

“ts”格式的时间序列可以与zoo包中的“zooreg” 强制互换,而不丢失信息。zoo包规则

和不规则间隔时间序列的架构(后者通过类“zoo”),其中时间信息可以是任意类。这包括日间序列(典型地,以“Date”时间索引)或日内序列(例如,以“POSIXct”时间索引)。

建立在“POSIXt”时间-日期类上的its、tseries和timeSeries(前fSeries)包也提供不规则间隔时间序列的架构,特别用于金融分析。

时间序列建模(Time series modelling)

stats包里有经典的时间序列建模工具,arima()函数做ARIMA建模和Box-Jenkins-type分析。

stats包还提供StructTS()函数拟合结构时间序列。

可以用nlme包中的gls()函数经由OLS拟合含AR误差项的线性回归模型。

时间序列的滤波和分解可以用stats 包的decompose() 和HoltWinters() 函数。

这些方法的扩展,尤其是预测和模型选择,在forecast 包里。

mFilter 里有各种各样的时序滤波方法。

估计向量自回归(VAR)模型,有若干方法可用:简单模型可用stats 包里ar()拟合,vars 包提供更精巧的模型,dse 中的estVARXls()和贝叶斯方法在MSBVAR 中。dynlm包有一个经由OLS拟合动态回归模型的方便接口,dyn实现了一个用于其它回归函数的不同方法。

可以用dse拟合更高级的动态方程组。

tsDyn 提供各种非线性自回归时序模型。

高斯线性状态空间模型可用dlm 拟合(通过最大似然、卡尔曼滤波/平滑和贝叶斯方法)。

包urca、tseries和CADFtest提供了单位根和协整技术。

时间序列因子分析在tsfa 包里。

包sde提供随机微分方程的模拟和推断。

非对称价格传导建模在apt包中。

杂项

矩阵操作(Matrix manipulations)。作为一个向量和矩阵语言,R有许多基本函数处理矩阵,与Matrix和SparseM包互补。

放回再抽样(Bootstrap)。除了推荐的boot包,bootstrap或simpleboot包里有一些其它的常

规bootstrapping技术;还有些函数专门为时间序列数据而设计,如:meboot包里的最大熵bootstrap,tseries包里的tsbootstrap()函数。

不平等(Inequality)。为了测量不平等(inequality),集中(concentration)和贫穷(poverty),ineq包提供了一些基本的工具,如:劳伦茨曲线(Lorenz curves),Pen's parade,基尼系数(Gini coefficient)。

结构变化(Structural change)。R有很强的处理参数模型的结构变化和变化点的能力,可参考strucchange和segmented包。

数据集(Data sets)

Packages AER和Ecdat包含许多来自计量经济学教科书和杂志(应用计量经济学,商业/经济统计)的数据集。

AER另外提供大量例子再现来自教材和文献的分析,演示各种计量经济学方法。

FinTS 是Tsay的《Analysis of Financial Time Series》(2nd ed., 2005, Wiley)一书的R参考,包含运行其中一些例子所需的数据集、函数和脚本。{r语言中文情感分析}.

DNmoney包提供加拿大货币流通额。

pwt包提供佩恩世界表(Penn World Table)。

包expsmooth、fma和Mcomp分别是《Forecasting with Exponential Smoothing: The State Space Approach》(Hyndman, Koehler, Ord, Snyder, 2008, Springer)、《Forecasting: Methods and Applications》(Makridakis, Wheelwright, Hyndman, 3rd ed., 1998, Wiley)和《the M-competitions》的时间序列数据包

包erer包含《Empirical Research in Economics: Growing up with R》(Sun, forthcoming)一书中的函数和数据集。

r语言中文情感分析篇五

R语言对应分析实验报告

R语言对应分析实验报告

班级:应数1201

学号:12404108 姓名:麦琼辉

时间:2014年12月24号

1 实验目的及要求

1) 了解对应分析的目的和基本统计思想;

2) 熟悉R语言的相关程序,并用其解决实际的问题。

2 实验设备(环境)及要求

个人计算机一台,装有R语言以及RStudio并且带有MASS包。

3 实验内容

对应分析在市场细分和产品定位中的应用

4 实验主要步骤

1) 数据管理:实验选取了5个指标作为媒体网站评价的标准:流量、访问量、被连接数、速度、浏览页面数。

2) 调入数据:对数据复制,然后在RStudio编辑器中执行如下命令。

case9=read.table(‘clipboard’,head=T)

head(case9)

3) 对应分析:相关的RSstudio程序命令如下所示。

library(MASS)

ca=corresp(case9,2);ca

summary(ca)

biplot(ca) abline(v = 0,h = 0, lty = 3)

5 实验结果 图1 对应图

根据图1可将样本点和变量分为四类,如表1所示。

6 实验小结

通过本实验了解了对应分析的目的和基本统计思想,熟悉和使用R语言解决相关的问题。

  • 中文情感分析r语言
  • r语言中文情感分析由美文导刊网(www.eorder.net.cn)收集整理,转载请注明出处!原文地址http://www.eorder.net.cn/meiwen208707/

    文章评论
    Copyright © 2006 - 2016 www.eorder.net.cn All Rights Reserved
    美文导刊网 版权所有