当前位置:文档之家› 情感分析:基于词典的分析方法

情感分析:基于词典的分析方法

情感分析:基于词典的分析方法
情感分析:基于词典的分析方法

情感分析:基于词典的分析方法

好主意值得扩散,激发我们创造的动力所有的数据挖掘方法和思路基本上很久之前都已经形成了,只是现代计算机的普及让这些创新的想法拥有了看似可行的技术支撑,给了他们起死回生的机会,从历史的故纸堆里摇身一变,成了高大上的现代挖掘感念。情感分析的历史也可以追溯到1950年,没错你真的没有看错,那时的情感分析用于研究论文评述的态度。如今,广阔的社交媒体为情感分析提供了用武之地,文本数据源源不断地从微博、博客、微信、社交平台、新闻评论、百度知道等等交互平台抓取下来,而情感分析被广泛的应用于挖掘互联网上的主观信息。从基础上讲,情感分析能够帮助企业掌握文本所表达的情感倾向:正向、负向、还是中性,给予企业分析特定人群特别是消费者对某一固定话题、产品、方法持有的态度。企业可以使用挖掘出来的情感信息寻找新的营销机会,改善营销方式,针对人群采取精准营销等等,美国总统奥观海团队就使用情感分析方法监控大众对其政策的态度和反应。1.情感分析及其应用:这里是老生常谈在企业内,所有的数据挖掘工作归根结底要解决业务问题,这一点认识的越深刻越能脚踏实地的解决问题,而不是制造虚假问题然后解决或者是答非所问,结果不能对问题实现有效的干预。1.1.情感分析的用途情感分析也一样要

寻找自己的业务用途。当然情感分析有很多用途,网络社交越来越火,名博或意见领袖越来越多,可以对商品和服务打分、评价的站点更是如雨后春笋,用户的评价和建议可以全网传播,这些数据毫无疑问是精准营销的动力来源。企业也可以根据情感分析建立自己的数字形象,识别新的市场机会,做好市场细分,进而推动产品成功上市,但抓住这些评论的价值部分也是企业的巨大挑战。上述正是情感分析的应用背景,但其主要用途包括:监控社交媒体社交媒体监控可以非常有效的管理品牌的影响力或识别对品牌有影响力的

意见领袖,比如你想知道自己品牌负面评论的来源,你可以监控50个行业意见领袖的微博、博客,分析他们微博或文章下面的用户评论,从而确定谁会引导负向评论,之后就可以和这些意见领袖合作,从而转化他们的负面影响。公共关系情感分析同时能帮助企业改善或重塑公共关系策略,例如情感分析可以探索销售热点和行业的流行趋势,同样就像上一步表述的一样,通过情感分析找到社会上对品牌有好感的意见领袖,建立并维持合作的关系,这种方式显然是一种行之有效的公共关系管理策略。市场营销情感分析正在逐步替代传统市场研究的内容,比如情感需求调研、使用习惯及态度研究等等,例如,三星想知道客户对他们的新机型的评价,在社交媒体和数据挖掘兴起之前他们只能通过市场调研的

方式解决。而数据分析则可以抓取消费者在各大消费网站如

亚马孙、京东、天猫、社交媒体留下的评论数据,分析这些文本内容。从而获知消费者对某个新机型的情感倾向,或者获得消费者对某个新机型的了解程度以及消费者对机型的哪些属性比较赞赏而对另外某些方面并不感冒。政策分析分析微博上的评论可以非常准确的了解大众对政策的理解和情感倾向,慕尼黑大学的研究表明推特上的信息能够非常准确的反映选民的政治倾向,通过分析2009年德国大选期间选民涉及政党和政客的10万条推特,结论是推特的信息能够预示大选的结果,其准确性不亚于传统的民意调研。数据挖掘情感分析作为一种数据挖掘的方式,可以用于采集竞争对手的竞争优势,企业可以轻易地跟踪社交媒体的情感倾向和社交媒体对竞争对手的情感倾向,了解消费者对竞争品牌的印象及对其产品的情感倾向,这是非常优秀的竞争优势分析策略。更重要的是,情感分析的结果和情感指数还可以作为变量应用到其他数据挖掘项目,例如预测用户流失的概率时就可以关联用户的情感指数作为变量。1.2.情感分析的方法论受制于人们表达态度的方式异常复杂,情感分析面临很多挑战,简单的方法难以识别真正的情感倾向。但常见的分析方法大致可以梳理为两个常见的方向:基于词典的情感分析法和基于监督算法的情感分析方法。1.2.1.基于词典的情感分析法基于词典的情感分析法起源于基于语法规则的文本分析,方法比较简单纯朴,首先需要具有语法敏感性的专业

人士构建情感分析的词典:正向情感词典和负向情感词典,即将某语言中用于表达情感的词汇分为两个类别,然后比对文本中正负情感词的个数之类的方法,评估文本的情感倾向,这种方法非常容易理解。

情感词也分轻重缓急,比如喜欢和爱虽然都是正向,但其程度上不一样,因此根据语言专家的分析,给予情感词不同的情感级别或权重算是对上述分析方法的改进,毫无疑问种方法包含一定的语法分析的成分,大家不要忘了谷歌翻译的早期版本就是基于语法的方式,其效果可见一斑。1.2.2.基于监督算法的情感分析方法基于监督算法的情感分析过程首先

制作一个规模庞大的训练集,由人工识别文本的正负向,然后通过机器学习或算法(SVM、随机森林、朴素贝叶斯等等)等方式训练模型,得出模型后再用来识别新文本的情感倾向,比较像垃圾邮件的分类方法,首先精挑一些垃圾邮件和正常邮件,让模型学习,然后再将模型用于垃圾邮件的分选。

1.2.3.一种准确率几达87%的新方法本书介绍一种新方法,准确率高于常见的分析方式,而且仍有提升空间。1.2.4.情感分析一些积累知识和方向首先我们应感感谢一些前辈的积累

工作,就词典方面中国知网的研究者整理出了知网情感hownet词典,更新地址:

https://www.doczj.com/doc/7b8870563.html,/html/c_bulletin_2007.htm,另外还有台湾大学整理的台湾大学情感NTUSD,还有富士通公司的

情感词典、程度词典等等。

除了情感词典以外,情感分析语料库方面也有不错的工作积累,比如清华大学李军标注的情感分析语料库等等,以及Tang先生等人另辟蹊径根据表情符号标注微博情感语料库

类别的方法。

以上都是非常优秀的工作,本书将大量采用前人的研究成果,但站在巨人的肩上能不能看得更远就另是一说啦。基于多年从事文本挖掘和自然语言分析工作的经验,在情感分析方案设计和评价时我觉得应该考虑一下几点:1.是否需要词典

2.是否具有跨行业分析的功能

3.使用什么算法,是分类任务还是分值预测,这关系到情感分析的细腻细腻度问题

4.是否需要使用规则及其与程序速度的平衡关系

5.是否关注情感归属问题,即主体词和情感的归属关系,是整体层次还是单个文本的个体层次

6.准确率和速度以上算是情感分析的几个基本问题,本章尽量从这些方面探索实现。2.文本分析的基本武器:工欲善其事工欲善其事,必先利其器,R和python都是数据挖掘的利器,虽然我们选择了使用R做情感分析,但我个人认为python

更具后发优势,如果你搜索自然语言处理的话,会发现很多内容和python有关,至于其他方面的比较,个人认为没有必

要,只看这一点就ok了。2.1.Rjava包配置既然选择了R语言,就需要将R语言打造一番,首先RJava包需要安装,它是R语言和Java的通信接口,允许在R中直接调用Java的对象和方法,恰恰能满足很多包的需要,比如Rwordseg。Linux环境下只要R与Java的版本对应即可使用常规方法安装RJava,而windows环境下就比较麻烦,首先要安装java,去oracle官网下载JDK版安装包,注意,这里是jdk不是jre,是64位还是32位要和R版本相同。

然后需要安装Rtools,下载地址

https://www.doczj.com/doc/7b8870563.html,/bin/windows/Rtools/,当然要选择和R匹配的Rtools。

完成以上工作以后需要配置环境,win7右键我的电脑——高级系统设置——环境变量,在环境变量中分别新建或添加相应的环境路径。

第一个classpath,新建classpath添加下面代码classpath.;%JA V A_HOME%\lib\dt.jar;%JA V A_HOME%\lib\too ls.jar;C:\Program Files\R\R-3.2.1\library\rJava\jri这里最后一个值有时需要指定到jri的版本是x64还是i386,如果是64,那么需要C:\Program Files\R\R-3.2.1\library\rJava\jri\x64,有时又不需要这么指定,真是一件神奇的事情。第二个

JA V A_HOME,新建,然后把下面的内容添加进去

JA V A_HOMEC:\Program Files\Java\jdk1.8.0_51第三个Path,

新建path,注意一下所有的软件都要区分i386或

x64PathC:\Rtools\bin;C:\Rtools\gcc-4.6.3\bin;%JA V A_HOME %\bin;%JA V A_HOME%\jre\bin;C:\Program

Files\R\R-3.2.1\bin\i386;C:\Program

Files\R\R-3.2.1\bin\x64;C:\Program

Files\Java\jdk1.8.0_51\jre\bin\server第四个R_HOME,添加R_HOMEC:\Program Files\R\R-3.2.1以上所有路径均是你的软件安装路径,其他不需要修改。安装rJava包if

(!suppressWarnings(require("rJava"))) {

install.packages("rJava")

require("rJava")

}

.jinit()

s <- .jnew("java/lang/String", "Hello World!")

s

#[1] "Java-Object{Hello World!}"如果s正常返回

"Java-Object{Hello World!}"则RJava已经成功了。只有RJava 配置成功了,Rwordseg安装才可能成功,前者是后者的依赖包。2.2.Rwordseg包安装如果返回不正常说明你的RJava还没安装好,需要重新安装,Rwordseg是我接触最早的中文分词包,所以情有独钟,并不是因为它多么优秀,而是觉得分词是文本分析的基础工作,就其准确性而言,各种方法之间

实在没有实质性的差别,因此也就没有养成换来换去的坏毛病。

其实,有一点很奇怪,大家口口声声玩大数据,但往往在某些细节问题上止步不前,比如为了分词准确性提高一个千分点,花费大量的时间、财力和精力,我请问,这些改变对数亿级的文本分析结果能有多大的影响呢。

另外,数据量巨大的分析保证我们在群体上的精确性,这也是统计的本质,而有些人在评价结果时可能纠结于极个别的个体,这本就是一种本末倒置的思维。如果我们的自变量是由个体组成的,必然需要从群体上评价准确性,而不是纠结于黑天鹅事件。至于防止黑天鹅事件,自然可以设计一套风险管理措施,比如可以分化赌注,多玩几次。扯远了,继续安装Rwordseg。安装Rwordseginstall.packages("Rwordseg", repos = "https://www.doczj.com/doc/7b8870563.html,")#这一步要完成需要安装Rtools

library(rJava)

library(Rwordseg)

segmentCN("在此对原作者孙健表示强烈的敬意!")如果在线安装不成功,可以下载本地安装。下载

https://https://www.doczj.com/doc/7b8870563.html,/R/?group_id=1054本地安装很简单,如果你使用Rstudio编辑器,点击tools,选install.packages 就可以安装。如果segmentCN函数分词成功就ok了,报错

就自求多福吧!2.3.jieba分词包安装虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python 版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF)、分析文本相似性等等,真是老少咸宜。安装

jiebaRlibrary(devtools)

if (!suppressWarnings(require("Rcpp"))) {

install.packages("Rcpp")

require("Rcpp")

}

install_github("qinwf/jiebaR")

library(jiebaR)

seg <- worker()

seg <= "江州市长江大桥,参加了长江大桥的通车仪式。" seg <= "H:/zimeiti/窥视数据背后的逻辑:基于R与

python/bookwriting/第十二章舆情分析

/rawdata/dataset_602123/ChnSentiCorp_htl_ba_2000/neg/neg.0. txt"

fenci 如果使用install_github函数安装github上的包,需要调取devtools包,而该包需要Rtools,这也是提前安装Rtools 的原因;另外jiebaR使用Rcpp开发,因此需要安装调取Rcpp

包。

jiebaR其实是一个刀架,里面的每一把刀是一个分词引擎(是的,好几种),通过worker函数初始化引擎,建议不要更改默认设置(个人认为很多函数的默认设置必有其合理性),指定分词引擎后,只需要将文本通过符号赋值给分词引擎即可,有两种方式:其一直接赋值一句话;其二指定文本路径,分词结果存放在相应的路径内;当然也可以像使用Rwordseg 包的segmentCN函数一样使用segment函数分词,只不过后者需要指定分词引擎。

之所以多说了两句,是为了努力说服大家尽量使用jiebaR,但是下面的内容我们主要使用Rwordseg包分词,是不是很变态?其实就分词这段不一样而已。3.基于词典的情感分析的效率高过瞎猜么?上面已经简单介绍了基于词典的情感

分析的过程,一般经过以下几个过程:数据整理、词典整理、情感词匹配、计算情感得分和方法评估等过程。这种分析方法因其思路简单而遭人诟病,更有甚者说分析效果赶不上猴子瞎猜,咱不看广告,看疗效。3.1.数据整理及词典构建这一节我们完成文本语料库和词典的整理,使用谭松波和清华大学李军等人标注的语料库进行分析,词典方面使用已经公开的词典资源,包括台湾大学、中国知网等网站公布的情感词典。3.1.1.数据整理语料库共包含两个数据集:清华大学李军标注的近24000个酒店评论文本和谭松波整理的12000个

来自京东、携程、当当网的跨行业评论文本。李军的语料库(review_sentiment)包括两个数据集(训练集和测试集)和两个标注表(训练标注表和测试标注表),标注表注明了文本的情感倾向,正向为1,负向为-1。由于文本为分散的单个文本,所以需要批量读入文本文件。获取文本路径reviewpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/train2"

# reviewpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/test2"

completepath 上面第一句设定了文件存放的路径,list.files 函数获取该路径下所有文件的文件名,如果https://www.doczj.com/doc/7b8870563.html,s参数为真,则返回完整的路径,反之返回文件名称,pattern设置符合正则表达式的规则,仅提取符合要求的文件,防止读入系统文件,这里仅匹配以.txt结尾的文件。批量读入文本read.txt <- function(x) {

des <- readLines(x)

return(paste(des, collapse = ""))

}

review <- lapply(completepath, read.txt)

#There were 50 or more warnings (use warnings() to see the

first 50)上面刚开始构造了一个函数read.txt,目的是将一个完整路径的txt文件加载进来,并将每个段落粘贴在一起,函数是一个非常中规中矩的R函数模式:第一句,打开文件并分行读取,然后将每一行粘贴在一起,最后返回完整的文本内容。在R的自编函数末尾return声明返回的内容,如果不声明仅返回函数中形成的最后一个对象。paste函数有两个指定间隔符号的参数:sep和collapse,前者将两个对象或两个对象的元素对应粘在一起时使用,后者是融合的意思,将向量或者list的元素粘在一起时使用。第二句使用了lapply 函数,避免了每一个文本循环读取,保持了代码的整洁,提高了运行速度。到这里,review这个list就记录了文件下的所有文本内容,它的每一个元素是一个文本的内容。如果你忍不住想用循环处理,说明你还处于低级阶段,不到万不得已绝对不能轻易使用R语言循环。另外,如果程序警告,这里可能是部分文件最后一行没有换行导致,不用担心。list 转数据框docname <- list.files(reviewpath, pattern = "*.txt$") reviewdf <- as.data.frame(cbind(docname, unlist(review)), stringsAsFactors = F)

colnames(reviewdf) <- c("id", "msg")

reviewdf$msg <- gsub(pattern = " ", replacement ="", reviewdf$msg)

reviewdf$msg <- gsub("\t", "", reviewdf$msg) #有时需要使用

\\\t

reviewdf$msg <- gsub(",", ",", reviewdf$msg)

reviewdf$msg <- gsub("~|'", "", reviewdf$msg)

reviewdf$msg <- gsub("\\\"", "", reviewdf$msg)

# Warning message:

# In scan(file, what, nmax, sep, dec, quote, skip, nlines,

na.strings, :

# EOF within quoted string1行读取文件名称;2行名称和文本内容按列(cbind)捆绑在一起成为一个新的数据框;3行修改列名;4行移除文本中的所有空格,第一个参数指定正则表达式模式,第二个参数指定替换为的内容;5、6行替换所有的\t和英文逗号,因为csv各式的文档以英文逗号为分隔符,文中有英文逗号会报错,除了英文逗号可能引起read.csv 函数读取csv文件报错以外,还有英文单引号(’)、英文双引号(”)、波浪号(~),都会引起读取时发生警告,带来csv 文件或txt文件读取不完整的后果,如果一旦发生“EOF within quoted string”就要想办法找出这类符号将其替换掉;因此,7行依次替换了波浪号(~)和英文单引号(’),它们之间用“|”符号隔开,表示或的关系;8行替换所有的英文双引号(”),因为双引号在R中有特殊含义,所以要使用三个斜杠(\\)转义。数据算是基本处理了一下,下一步要给文本匹配上情感标注。关联标注reviewclass <-

read.table("H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/train2.rlabelclass", stringsAsFactor = F)

# reviewclass <- read.table("H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/test2.rlabelclass", stringsAsFactor = F)

colnames(reviewclass) <- c("id", "label")

library(plyr)

reviewdf <- join(reviewdf, reviewclass)

reviewdf <- reviewdf[!is.na(reviewdf$label),]

train <- reviewdf

# test read.table读取训练集文本标注数据,该函数是R中读取数据的根函数,很多函数都是继承的read.table,所以看到格式陌生的文件,可以尝试使用这个函数读取,2行更改标注文档的列名称,id列和reviewdf中的id列相同,plyr包里的join函数会根据名称相同的列进行匹配关联,join默认设置下执行左连接;然后将整理好预料赋值给train备用。这样李军标注的训练数据集就整理完成了,整理测试数据集使用相同的代码,将注释掉的代码恢复,同时将上一句注释掉即可。

dataset_602124数据集分为当当、京东、携程三个子文件夹,下面又分别有pos和neg文件夹,顾名思义,pos文件夹下全是情感正向的文本;neg下则为负向的文件,为了操作简便,分别把文本统一整理到pos和neg文件夹内,然后在进行数据处理。获取文本路径reviewpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/rawdata/dataset_602124/pos"

# reviewpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/dataset_602124/neg"

completepath 读取dataset_602124数据集,设定文嘉路径。批量读入文本review <- lapply(completepath, read.txt) #自编

函数read.txt

docname <- list.files(reviewpath, pattern = "*.txt$")

label <- rep(1, length(docname))

# label <- rep(-1, length(docname))

reviewdf <- as.data.frame(cbind(docname, unlist(review), label), stringsAsFactors = F)

colnames(reviewdf) <- c("id", "msg", "label")

reviewdf$msg <- gsub(pattern = " ", replacement ="",

reviewdf$msg)

reviewdf$msg <- gsub("\t", "", reviewdf$msg) #有时需要使用

\\\t

reviewdf$msg <- gsub(",", ",", reviewdf$msg)

reviewdf$msg <- gsub("~|'", "", reviewdf$msg)

reviewdf$msg <- gsub("\\\"", "", reviewdf$msg)

pos6 <- reviewdf

# neg6 <- reviewdf

temp <- rbind(pos6, neg6)

train <- rbind(train, temp)

write.csv(train, 'H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/data/train.csv',

https://www.doczj.com/doc/7b8870563.html,s = FALSE)

# write.csv(test, 'H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/test.csv', https://www.doczj.com/doc/7b8870563.html,s = FALSE)1、2行不多说;3行为读入的数据添加情感倾向标签,正向数据全部标注为1,负向数据全部标注为-1(暂时注释掉了),rep 函数复制产生一个和向量docname等长的向量;4、5行捆绑3列生成数据框,并重新命名3列,列顺序、名称和train数据框保持一致;6、7、8、9、10行不多说了;11、12、13行将已有的数据按行粘(rbind)在一起,生成用于训练的语料库train,测试的语料库仅仅使用李军的测试集test即可(注释代码);只需将train和test输出到专用的数据存储文件夹

data,write.csv输出语料文档,输出格式为csv,参数https://www.doczj.com/doc/7b8870563.html,s 设置为非,表示不输出行编号。

这样测试集和训练集语料库都已经准备好了,并存储在data 文件夹里备用。3.1.2.词典构建尽管我们搜集了很多部情感词典(参看电子文档),经过挑选,暂时整合中国知网、台大、清华和一部未标注来源的词典等四部词典,再次感谢这些词典的作者。首先我们需要将这些词典整合为正向情感词集pos和负向情感词集neg。我已经将各个词典的正负文本整理到两个文件夹内:词典整理dictpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/rawdict/posdic"

# dictpath <- "H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/rawdict/negdic" completepath <- list.files(dictpath, pattern = "*.txt$", https://www.doczj.com/doc/7b8870563.html,s = TRUE)

dict <- lapply(completepath, readLines)

dict <- unique(unlist(dict))

pos <- dict

# neg <- dict

write.csv(pos, 'H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/dict/pos.csv',

https://www.doczj.com/doc/7b8870563.html,s = FALSE)

# write.csv(neg, 'H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/dict/neg.csv',

https://www.doczj.com/doc/7b8870563.html,s = FALSE)1、2行不多说,3行lapply函数直接使用了readLines函数,将每个文件按行读取;4行将list解散(unlist)成为一个向量,各个词典中肯定有相互重复的词,所以使用unique函数去一次重,这样词典的正向词汇就整理完成了,负向词汇使用相同的方法,部分特异的代码可以使用注释掉的内容;最后将正负向词汇文件输出到dict文件夹即可。3.2.分词整理基于词典的情感分析实际上算法和模型先入为主的预订了:统计文本正负情感词的得分之和,如果得分为正,则文本情感倾向为正,反之亦然。所以不需要训练模型,直接使用测试集测试一下即可。

基于以上,首先要进行中文分词,在分词之前要将文本预处理一下,包括清除一些英文和数字等等。分词预处理test <- read.csv("H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析

/rawdata/review_sentiment/test.csv", sep = ",", header = T, stringsAsFactors = F)

sentence <- as.vector(test$msg)

sentence <- gsub("[[:digit:]]*", "", sentence) #清除数字

[a-zA-Z]

sentence <- gsub("[a-zA-Z]", "", sentence)

sentence <- gsub("\\.", "", sentence)

test <- test[!is.na(sentence), ]

sentence <- sentence[!is.na(sentence)]

test <- test[!nchar(sentence) < 2, ]

sentence 1行读取csv文件,并设置stringsAsFactors参数为非,不将字符转化为因子;2行将文本内容转化为向量sentence;3行清除数字;4行清除英文字符;由于某些文档可能是由外国人或者一些装逼汉写的评价,全部是英文,经过以上几步处理就只剩下了dot符号,所以5行将这类符号清除;经过以上处理,可能一些文本已经变成了空值或者小于两个字符了,所以6行将原数据框中这些空值文本清除,7行将对应的sentence里的空值清除,注意6行的筛选使用sentence是否为空值完成的,所以要先筛除数据框test内的空值,然后再筛除sentence内的空值;最后两句筛出字符数小于2的文本,nchar函数对字符计数,英文叹号为R语言里的“非”函数。

另外既然整合了大量的词典,就要尽量保证分词器能够把这些情感词汇分出来,所以需要将情感词典添加到分词器的词典中去,虽然这种方法在特殊情况下并不一定凑效,但至少增加了分词器在分词时的计算权重。添加词典pos <- read.csv("H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/dict/pos.csv", header =

T,

sep = ",", stringsAsFactors = F)

weight <- rep(1, length(pos[,1]))

pos <- cbind(pos, weight)

neg <- read.csv("H:/zimeiti/窥视数据背后的逻辑:基于R与python/bookwriting/第十二章舆情分析/dict/neg.csv", header = T,

sep = ",", stringsAsFactors = F)

weight <- rep(-1, length(neg[,1]))

neg <- cbind(neg, weight)

posneg <- rbind(pos, neg)

names(posneg) <- c("term", "weight")

posneg <- posneg[!duplicated(posneg$term), ]

dict <- posneg[, "term"]

library(Rwordseg)

insertWords(dict)1读取正向情感词;2行创建权重向量,这里任何一个正向词汇的权重均为1,负向词汇的权重为-1;3行为pos添加权重列;4、5、6行作用同上,为负向情感词添加权重列;7行将正负情感词按行粘贴在一起;8行更改列名称;因为各个词典对情感词的倾向定义可能矛盾,出现同一个词具有情感正向和负向两种倾向的情况,尽管这种情况更加符合现实,但是违背了基于词典的情感分析的原假

文本情感分析综述

文本情感分析综述? 赵妍妍+, 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001) A Survey of Sentiment Analysis * ZHAO Yan-Yan+, QIN Bing, LIU Ting (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@https://www.doczj.com/doc/7b8870563.html, Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信 ?Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)

情感文本分析

情感文本分析 [摘要]本文运用扎根理论对龙源2012年具有代表性的5种期刊中点击率高的30篇情感类文章进行文本分析,通过开放性和选择性编码,归纳出这些热点情感类文章的核心范畴,并以此构建了情感类文章的核心结构模型。通过分析该模型发现,婚姻冲突是情感类文章的关键,婚恋指导是情感类文章的核心,这两个要素是情感类文章写作与编辑时需要把握的两个重要指标,同时也是情感类期刊在组织文章时可资参考的一种结构。 [关键词] 情感类文章婚姻冲突婚恋指导扎根理论 一、引言 随着时代变迁和社会发展,人们的价值观和婚恋观也随之发生改变,由此产生了一系列社会问题,从而引发了人们对于当今社会情感婚姻问题的探讨,作为情感类期刊,它其中的文章更要直接面对这个问题。本文将以龙源2012年具有代表性的5种情感类期刊中点击率高的情感类文章为例,运用扎根理论,深入分析这类文章受欢迎的因素。 二、概念界定 本部分主要对本文涉及的术语进行界定,厘清其概念,为后文的研究奠定基础。 (一)情感类期刊 随着人民生活水平的提高,除却对物质方面的追求外,人们开始越来越重视对情感方面的追求。正因如此情感类期刊在我国有很好的发行量,例如《知音》、《家人》、《家庭》、《婚姻与家庭》、《恋爱婚姻与家庭》、《爱情婚姻与家庭》等知名情感类期刊,都深受读者的好评。情感类期刊有一个共同的特点,就是能够从读者的某种需求切入,投影,准确抓住读者心灵和情感层面的特殊需求,坚持自己的办刊特色,并狠抓文章在这一理念上的品质,把文章质量做到了一种极致,深深扎入读者的心灵和生活当中。 (二)扎根理论 扎根理论研究法是由芝加哥大学的Barney Glaser和哥伦比亚大学的Anselm Strauss两位学者共同发展出来的一种研究方法,是运用系统化的程序,针对某一现象来发展并归纳式地引导出扎根的理论的一种定性研究方法。扎根理论研究法就是,在研究开始之前研究者一般没有理论假设,而是带着研究问题将收集到的原始资料进行思考、比较、分析、归类、概念化并加以关联和建构,并将隐藏在资料中的理论通过研究者的理论触觉挖掘出来,扎根理论的本质是归纳法,主旨是在经验资料的基础上构建理论。 三、基于扎根理论的情感类文章文本分析 为了挖掘情感类文章受欢迎的因素,本文根据龙源网提供的5家具有代表性的期刊《伴侣》、《婚姻与家庭》、《家庭》、《恋爱婚姻家庭》和《人生与伴侣》五家期刊社的《2012年度个刊数据分析报告》,选择其中每家刊社2012年度国内阅读TOP10文章作为研究素材,在逐篇阅读和分析之后,从中筛选出内容涉及情感婚恋的文章,共30篇。最终确定这30篇文章为本文深入研究的对象。 1、挖掘情感类文章的相关概念 研究者以开放的心态基于资料,贴近数据,用概念来表达数据,并将具有相似属性的概念进行归类形成范畴。对文本进行开放编码,逐句逐段进行分析,使得编码契合数据。抽取相关的概念,对所得到的概念及其范畴反复考察,最终从文章中抽取出119个概念和20个范畴。概念数量庞杂而且有交叠,范畴则是对概念的重新分类整合,成为后续研究的重点。挖掘出的20个范畴(A1~A20)分别为爱情观、婚后夫妻沟通、婚姻危机、婚后理性处事、婚姻观、婚姻调适、幸福生活、夫妻性生活、专家意见、现实压力、婚姻问题、异国婚姻、残疾人婚恋、法律纠纷、奇妙缘分、恋爱故事、新式婚恋、养育子女、名人婚恋、违法犯罪。经过多次整理分析得到如下范畴,表1为情感类文本开放编码形成的范畴。

诗歌情感分析

诗歌情感分析 ——诗歌阅读考点复习 教学目标: 1、了解诗词常见情感。 2、学会“五步法”初定情感。 教学重点:学会“五步法”初定情感。 教学难点:根据题材初定情感。 教学时间:一课时 教学过程: 一、透视考点,明确目标 师:同学们,这是部分地区中考诗词赏析的一些试题。大家观察一下,根据考察的侧重点谈谈你的发现。 师:大家回答得很好。今天,我们就一起进行“诗词情感分析”题型的探究。 师:《2017盐城市中考说明》对诗词赏析提出了要求。请大声朗读。 师:根据这一考点要求,老师为你们制定了本节课的学习目标,大声读。 二、温故知新,积淀情感 师:我们首先结合课内所学诗词,分析一下诗词的常见情感有哪些。 师:同学们回答得很棒,看来你们对这些知识点已经能够熟练掌握,所谓温故知新,相信你们今天的知识点也能掌握。 三、讲解新知,指点迷津 师:如果是课外诗词,你能这么快速地说出情感吗? 通过本节课的学习,我们要掌握常见的初定情感的方法。 (一)看诗词题材。(齐读:根据诗词的题材初定诗歌情感) 1、一般情况之下,同一种题材的诗词,其情感往往是有一定的规律可寻的,所以我们可以从诗词的类型出发,去猜测其情感内容。诗词按照题材可分为以下几类:咏史怀古类、思乡送别类、山水田园类、边塞征戍类、咏物言志类。 生思考后出示答案。 2、如果我们能快速确定诗歌题材,对于定位诗歌情感是很有帮助的,解题的针对性也会增强。再看刚才的题目。 3、送别诗:惜别、不舍、关切、担心、劝勉…… 二、看诗词意象(第二种方法是根据意象或情语初定情感,齐读) 1、什么是意象呢? 明确:指包含着主观情感的客观景物或事物。 许多传统意象有着相对稳定的表意功能。下面列举了几个常见意象,出示: 月、雁、水、丝、梧桐、柳、菊、梅、…… 你能说说这些意象通常表达什么样的情感吗? 2、补充内容,自由朗读。 3、至少即我们要分析是乐景还是悲景,是乐情还是悲情。进而把握诗歌情感。再看刚才的题目。意象:阳关,多为伤别之意,怀念征人为多。 三、看情语(第三种方法是根据意象初定情感,齐读) 1、什么是情语 2、找出下面的情语,说出诗词的情感。 3、出示例子并分析。“宦”:仕途失意,“羁思”:羁旅漂泊的愁思,“凄凄”:倍加凄凉。 4、分析情语:泪未干,功名,行路难(悲情,与功业难建有关) 四、看诗词作者(第四种办法就是抓住诗词作者) 1、一般情况下,同一作者,在某一时间内,由于经历的原因,其情感往往是一定的,比如李白,他文章风采名震天下,后因不能为权贵所容,在京仅两年半,就不得不弃官而去,仍然继续他那飘荡四方的流浪生活。因此,这个时期的他的作品的情感内容往往是怀才不遇的苦闷,如作品《宣州谢眺楼饯别校书叔云》《行路难》。类似的情况还有很多,比如“陆游”“杜甫”“陶渊明”“李清照”“李煜”“苏轼”等,请你任选一例,结合其经历和作品谈谈占主体地位的情感内容。

文本情感分析

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.doczj.com/doc/7b8870563.html, Journal of Software, V ol.21, No.8, August 2010, pp.1834?1848 https://www.doczj.com/doc/7b8870563.html, doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563 ? by Institute of Software,the Chinese Academy of Sciences. All rights reserved. 文本情感分析 ? 赵妍妍+ , 秦兵, 刘挺 (哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨150001) Sentiment Analysis ZHAO Yan-Yan + , QIN Bing, LIU Ting (Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: E-mail: yyzhao@https://www.doczj.com/doc/7b8870563.html, Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834?1848.https://www.doczj.com/doc/7b8870563.html,/ 1000-9825/3832.htm Abstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field,making detailed comparison and analysis. Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization; evaluation; corpus 摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信 息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分 析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前 沿进展进行概括、比较和分析. 关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设 中图法分类号: TP391 文献标识码: A 随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯 的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主

2016年,文本分析、情感分析和社交分析的10大趋势

文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。 它从文本中、音频中、图像中还有网络连接中提取洞察力,它可真是个有用的东西! 目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“客户体验、社群聆听、用户交互”方面,还是有很多发展空间。这个快速发展的市场空间无论对于新加入的玩家还是深耕已久的资深人士都意味着大量的机遇。 随着技术和应用不断融合,与其独立地检验每个分析领域,还不如好好地观察整体的效果。忽视情感的社交分析是不完整的,并且为了从网络上获取社交情感数据并调查情感数据,我们真的需要文本分析技术。 本文对即将到来的2016年,针对文本分析、情感分析和社交分析的发展趋势进行一个前瞻性的观察。 一、多语言才是王道 尽管单纯英文的文本分析一直保持常态,但仅将一种语言做好,也比囊括很多种语言,却哪种都做得潦草要强得多。机器学习和机器翻译已经向着多语种文本分析迈进了一大步,使其成为一个全新的标准。但是如果你的确需要做多语种的开发尝试,事先也要做一些调查:很多开发者在其核心语言上很强,但在别的语言上就很弱了。所以说选择的时候还是小心一点。 二、文本分析获得认可 文本分析能力对于客户体验、市场研究、客户洞察、数字分析乃至媒体评测来说都是关键解决方案,各个文本分析服务提供商在分析能力的优势上不断竞争。总的趋势是“量化定性”,文本分析被纳入业务解决方案中是十分重要的事。 三、机器学习、统计学和语言工程并存 明天是属于机器学习、递归神经网络以及相似技术的,但是今天,长期建立的语言工程方法仍占上风。这里我指的是分类系统、分析器、词法和句法网络以及句法规则系统。目前我们处在一个“百花齐放、百家争鸣”的时代,所以很多种方法都是可以并存的。举例来说,甚至众包数据处理的领军企业:CrowdFlower都全面拥抱机器学习了,初创企业Idibon都把传统和现代相结合作为一大卖点:“你可以组建自定义的分类系统,并使用机器学习、规则和你已有的字典/模式去调整它们。”

唐代诗歌情感分析(练习附答案)

唐代诗歌的情感分析 一、赠友别离诗 1.闻乐天授江州司马唐·元稹 残灯无焰影幢幢,此夕闻君谪九江。 垂死病中惊坐起,暗风吹雨入寒窗。 2.说说诗中哪个词最富表现力,它表达了诗人怎样的感情? 2.待储光羲不至唐·王维 重门朝已启,起坐听车声。要欲闻清佩,方将出门迎。 晚钟鸣上苑,疏雨过春城。了自不相顾,临堂空复情。 [注]要欲:好像清佩:古人佩戴在身上的玉器。走路时会发出清脆的碰撞声。 了自:已经明了空复情:自多情 2.全诗表达了一种什么样的感情?作者是通过哪些具体细节来表达这种感情的? 二、思乡怀人诗 3.逢入京使唐·岑参 故园东望路漫漫,双袖龙钟泪不干。 马上相逢无纸笔,凭君传语报平安 1.诗人为何“泪不干”?联系全诗试作解说。 4.旅次朔方唐·刘皂 客舍并州已十霜,归心日夜忆咸阳。 无端更渡桑乾水,却望并州是故乡 2.从“却望并州是故乡”看,诗人是怎样的一种心境? 三、边塞军旅诗 5.凉州词唐·王翰 葡萄美酒夜光杯,欲饮琵琶马上催。 醉卧沙场君莫笑,古来征战几人回。 2.三、四两句是写征人的心理设想,从语气上看,这位军人的胸襟是,但表达的感情却是、(用两个双音节词回答)柳宗元说:“嬉笑之怒,甚于裂眦;长歌之哀,过于痛哭。”联系诗句简述这两句诗的表达技巧。

6.塞下曲唐·李白 五月天山雪,无花只有寒。笛中闻折柳,春色未曾看。 晓战随金鼓,宵眠抱玉鞍。愿将腰下剑,直为斩楼兰。 1.“晓战随金鼓,宵眠抱玉鞍”写出了怎样的情形?诗篇表现了戍边将士何种情怀? 四、田园山水诗 7.过分水岭唐·温庭筠 溪水无情似有情。入山三日得同行。 岭头便是分头处,惜别潺爰一夜声。 1. 全诗描写的对象是而“”一词总领全诗,堪为“诗眼”。 2 .试说诗人是从哪些方面来表现自己真切感受的? 8.山中留客唐·张旭 山光物态弄春晖,莫道轻阴便拟归。 纵使晴明无雨色,入云深处亦沾衣。 诗人山中留客的理由有几点?全诗表现了诗人怎样的心境? 五、咏史怀古诗 9.越中览古唐·李白 越王勾践灭吴归,战士还家尽锦衣。 宫女如花满春殿,只今惟有鹧鸪飞。 1.这首咏史诗运用的最主要的艺术手法是,诗人“览古”意在表现的主题是什么? 10.途经秦始皇墓唐·许浑 龙盘虎踞树层层,势入浮云亦是崩。 一种青山秋草里,路人唯拜汉文陵。 1. 试述“崩”字在文中的含义及诗人借之抒发的感情。 六、哲理诗 11.乐游原唐·李商隐 向晚意不适,驱车登古原。 夕阳无限好,只是近黄昏。 注:乐游原,长安西南,地势高,可俯视长安城。 1.诗人“驱车”是因为,“登古原”是为了。 2.说说“夕阳无限好,只是近黄昏”诗句中包含着怎样的哲理?

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

文本情感分析论文总结

文本情感分析 赵妍妍,秦兵,刘挺- 软件学报, 2010 - https://www.doczj.com/doc/7b8870563.html, 按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。 情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者) 1.评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。 2.评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评 价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。 3.观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做 序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4.组合评价单元的抽取: 主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类 1.主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于 分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2.主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语 特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1.情感信息检索 2.情感信息归纳 基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。 基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源 1.情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析), 国内的COAE。 2.情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料, Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。 3.词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英 文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;

高三语文第7讲:诗歌情感分析(教师版)——纪文

第7讲诗歌情感分析 “鉴赏思想感情型”题常见的设问方式 1.这首诗体现了作者怎样的思想感情?请作简要分析。 2.诗歌××句(联、阙)表现了作者怎样的思想感情。请作简要分析。 3.结合诗词的感情,印证前人的评价。 4.试比较两首诗歌中的不同情感。 把握诗歌情感的“五看” 一看标题 二看作者 三看注释 四看问题 五看内容(寻诗眼、品意象) 鉴赏诗歌的情感要从多角度(标题、作者、注释、问题、诗眼、意象、题材等)入手,每一个角度要相互关联,不能孤立对待。 答题时要注重用词准确和专业,并且要结合诗句加以分析。 规范答题的常用格式 ①抒发……的思想感情 ②反映……的社会现实 ③表现……的情趣 ④寄托……的情怀 ⑤表达……的追求

⑥流露……的倾向 ⑦发出……的感慨 ⑧袒露……的心迹 答题步骤: ①先点出作者的感情(什么感情?用四个字或两个字的词) ②通过什么来表达感情(联系诗歌的事物、景物来回答,也可以理解为对于诗歌内容的概括或翻译) ③表达感情的特点、方法(直抒胸臆、委婉含蓄、情景交融、借景抒情、托物言志、衬托等)不引诗不答题 譬如回答诗句表达了作者怎样的思想感情,除了将这种思想感情的名称答出之外,还要根据上下文回答作者为什么有这种感情;回答诗句所用表现手法时,要尽量分析各个意象在这种修辞中所扮演的角色和这种手法的好处。联系诗文作答是鉴赏分析的必然步骤。 1.掌握几种常见的诗人情感类型以及答题术语。 2.难点是结合诗句分析作者情感。 例1.阅读下面这首词,完成8—9题。 江城子病起春尽 陈子龙[注] 一帘病枕五更钟。晓云空,卷残红。无情春色,去矣几时逢?添我几行清泪也,留不住,苦匆匆。 楚宫吴苑草茸茸。恋芳丛,绕游蜂。料得来年,相见画屏中。人自伤心花自笑,凭燕子,舞东风。 [注]陈子龙:明末文学家,本诗大约作于南明福王朝灭亡后一年。 8.这首词表现了词人什么样的情感?请简要分析。(5分) 解析:结合注释和语境去分析。对诗歌主旨情感的把握要从这几个方面入手:一要从诗人所

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

高考诗歌情感分析

高考诗歌情感分析 一、课前热身 1.(2014年广东卷)阅读下面这首词,然后回答问题。(7分) 望江怨送别 [清]万树 春江渺,断送扁舟过林杪①。愁云音未了,布帆遥比沙鸥小。恨残照,犹有一竿红,怪人催 去早。 【注】①杪:树梢。 (1)这首词的前四句描写了怎样的送别场景?(3分) (2)怎样理解“怪人催去早”?请结合全词分析。(4分) 【答案】 (1)前四句描写了一幅缠绵婉恻又悲凉寂寥的送别场景:友人乘舟远行,词人伫立江边,春水渺茫,行舟远去,愁云惨淡,小舟渐行渐远,最后惟见比沙鸥还小的点点白帆。(春天的傍晚,词人在江别送别友人,看着前方江水渺茫,友人的扁舟渐行渐远;天边浓云片片,帆船越行越远,比沙鸥还要小,词人心中不觉愁云惨淡。)作者以景衬情、含蓄蕴藉地将离别时难舍难分的情绪表现韵味十足。 (2)词人目送友人扁舟渐行渐远,不忍离开;天边愁云片片,帆船越行越远,比沙鸥还要小。而此时夕阳还有“一竿红”,词人不禁心中生恨,怪催促者催着要早早离开,使自己不能和友人多聚片刻。全词没一句言离别,一“怪”已使诗人的离别之情渲染到了极致,反常心理正好表达了(反衬)诗人对友人浓烈的不舍和留恋,足见两人友情之深。 【解析】 本题考查考生赏析作品描写艺术和思想内容的能力;能力层级D。鉴赏材料选自我国清代著名词曲家万树的《望江怨·送别》。 万树(1630-1688),字红友,一字花农,号山翁、山农,明常州府宜兴(今江苏宜兴县)人。他才思敏捷,学识明达,工词善曲,不仅是词学家,而且是著名戏曲文学作家。万树少年时即遭变乱,嗣后家境清寒,长期飘泊四方,历在山西、陕西一带游历。清顺治年间以监生游学北京,未得官而归。康熙年间入两广总督吴兴祚幕府作幕僚,一切奏议皆由其执笔,闲暇时作剧供吴家伶人演出。康熙二十七年(1688年)终以怀才不遇,忧郁积劳成疾,拜辞吴兴祚回乡,不幸病死于广西江舟旅途中,终年仅58岁。 万树是我国清代著名的词曲家,词曲风创新,硕果累累,其新编的《词律》对中国词坛的贡献尤为巨大,影响深远。 万树送别词最突出的特点就是淡雅含蓄、情景交融。《望江怨?送别》这首词运用比兴手法,以景衬情、含蓄蕴藉的表达效果更加明显。全词虽没有一句言离别,但所描绘的景致,将离别时难舍难分的情绪表现得缠绵婉恻,韵味十足。 分析题目:《望江怨·送别》顾名思义为一首送别词。以“送别”为主体的诗词,多为缠绵不舍之情。 分析词句:抓关键意象。词中“春江”“残照”交代了送别的地点和时间,“断送扁舟过”可见行人已远行;“愁云”“恨”可看出词人送别时的愁情别恨,最后一句“怪人催去早”,

文本情感分析:让机器读懂人类情感

文本情感分析:让机器读懂人类情感 1 引言 在大数据和人工智能的时代,机器能否拥有情感成为人们热议的话题。真正的人工智能系统不仅具有像人类的思考和推理能力,也需要也要能够感知和表达情感。MIT 的Minsky (人工智能之父)早在1985年在“The Society of Mind”中指出“问题不在于智能机器能否拥有任何情感,而在于机器实现智能时怎么能够没有情感?”。赋予机器情感分析能力引起了社会的广泛关注,研究领域也开展了很多相关的研究工作。科幻电影《她》中人工智能系统和主人公谈恋爱的故事,激发了人们对机器具有人类情感的无限想象。那么,机器是怎样理解人类情感呢?通常来讲,机器理解人类情感是一个多模态的感知过程,通过表情、行为、语言来理解情感。语言通常以文本的形式存在,本文主要是从文本的角度讨论情感分析的研究。 2 文本情感分析定义 文本情感分析([1],[2])是自然语言处理研究的一个热点,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照Liu[2]对情感的定义,情感表达由四个元素构成,分别是[Holder,Target,Polarity,Time],其中文本发表的时间通常可以使用简单的规则获取,因此情感分析的目标通常是从无结构的文本中自动分析出Holder(观点持有人)、Target(评价对象)、Polarity(极性)三元素。Holder是观点的发出者;Target是该观点评价的对象(如实体或实体的属性,或者话题);Polarity是所表达的情感类别,由于任务不同,情感类别体系会不同,通常包括褒贬、褒贬中、喜怒哀乐悲恐惊、情感打分(如1-5分)等分类体系。文本中的情感又分为显式情感及隐式情感,显式情感是指包含明显的情感词语(例如高兴、漂亮)情感文本,隐式情感是指不包含情感词语的情感文本,例如“这个桌子上面一层灰”。由于隐式情感分析难度比较大,比较依赖于背景知识及常识知识,目前许多工作集中在显示情感分析研究。 目前的情感分析研究可归纳为:情感资源构建、情感元素抽取、情感分类及情感分析应用系统,具体见图1。 图1 情感分析研究框架 3 情感分析研究任务 情感分析任务和其他自然语言处理任务一样,首先需要资源的支持,在此基础上,开展情感分析元素抽取以及文本情感分类工作,下面我们将进行简要介绍。

古诗情感分析教案

古典诗歌情感分析技巧 张玉红 教学目标: 1、知识目标:学会评价诗歌的思想感情 2、能力目标:掌握诗歌思想感情的鉴赏技巧 3、情感目标:体会作者的思想感情,热爱中国古典文化 教学重点:掌握分析思想感情的方法技巧 教学难点: 解读诗歌内容 教学方法:师生互动探究归纳讲练结合 5、教学用具:多媒体 教学过程: 一、导课 中国史诗的王国,从《诗经》到《楚辞》,从汉乐府到南北朝的山水诗,从唐诗到宋词,诗歌充分展现了中华民族的智慧。难怪高考一直把诗歌鉴赏做为重点考查的内容。那么怎样增加考场胜利的因素呢? 《孙子兵法》云:知己知彼,方能百战不殆。 二、高考回眸(ppt) 1、展示近三年辽宁高考诗歌鉴赏题,学生探讨考 题的类型,重点考查的内容,尽力发现相同的 问题。

2、总结:两年考题直接考查了思想感情,一年间接 考查的思想感情,可见,思想感情的考查是必 考的重要内容。 三、解读考纲(ppt) 1、鉴赏文学作品的形象、语言、表达技巧。 2、分析文学作品的思想内容,评价作者的观点态度。(能力层级E级) 四、复习回顾(ppt) 1、古诗题材分类 2、古诗情感术语 五、技巧点拨 1、审视标题,明情感倾向。(ppt) (1)诗题揭示写作时间、地点、对象、事件等。 例:《九月九日忆山东兄弟》《京口北固亭怀》练习:《宿济州西门外旅馆》 (2)诗歌题目流露作者的情感倾向。(ppt)例:《书愤》《春夜喜雨》《征夫怨》 练习:《长门怨》(ppt) 2、分析意象,明情感载体(ppt) (1)、传统固定意象,燕、梅、菊、竹等。 练习:《云安九日》(ppt) (2)、非传统意象,一般的景物。

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

诗歌技巧情感分析

第二节 技巧情感分析 一、考纲解读 “分析技巧”与“情感主旨”构成我省诗歌鉴赏技巧情感类题目。“分析技巧”一般要包括表达方式、修辞手法、艺术手法三类,并要从诗歌的整体构思、诗歌的艺术技巧方面来解答。“情感主旨”主要突出诗人的思想倾向、政治主张、志向追求、生活经历。 二、热点导图 三、命题类型 1、分析技巧类 [题目形式] (1)本首诗用了怎样的表达技巧(表现手法、艺术手法、艺术技巧)? (2)请分析这首诗的表现手法(艺术手法、表达技巧)。 (3)诗人是怎样抒发自己的情感的?有何效果? (4)这首诗(某某诗句)在写景(抒情、描写人物、景物)上有什么特点? [应对策略] (1)明手法:准确指出用了何种手法。 (2)说理由:结合诗句阐释为什么使用这种手法。 (3)析作用:此手法怎样有效传达出诗人怎样的感情。 [术语概念] (1)表达方式:记叙、描写、抒情、议论 (2)表现手法: A .修辞手法:比喻、比拟、夸张、借代、对偶、设问、反问、双关、谐音、反语、通感、排比、反复等。 B .抒情手法:①直接抒情(直抒胸臆)②间接抒情:借景(物)抒情、触景生情、乐景写哀、寓情于景、情景交融、托物言志、借古抒怀(借古讽今)。

C.其他方法:①动静结合(以动衬静、以静衬动);②虚实结合(虚实相生、由实到虚、由虚到实);③正侧结合(正面描写与侧面描写);④点面结合(以点写面、以面写点);⑤远近结合;⑥抑扬结合(先抑后扬/欲扬先抑、先扬后抑/欲抑先扬);⑦褒贬结合(似贬实褒/寓褒于‘贬/正话反说、似褒实贬/寓贬于褒/反话正说); ⑧明暗结合;⑨声色结合;⑩细节描写;⑩比兴;⑩白描;⑩工笔;⑩象征;⑩对比;⑩衬托(正衬、反衬);⑥烘托;⑩渲染;⑩用典;⑩铺陈;①联想(想象);⑩以小见大。 [题型示例] 阅读下面这首古诗,回答后面的问题。 春雪韩愈 新年都未有芳华,二月初惊见草芽。 白雪却嫌春色晚,故穿庭树作飞花。 问题:简要赏析三、四句运用修辞手法的妙处。 解析:本题考查考生对修辞的判断以及修辞作用用的分析,这是中招考查古诗名句的常见题型,考生凭借自己对修辞的积累,一般都不难写对这类题。从“嫌”和“故”二字不难判断出修辞是拟人,描写对象是白雪,结合诗歌内容,写出白雪特点即可。 答案:三、四句运用拟人的修辞手法,把白雪描绘得美好富有情趣,表现了它带给人的欣喜之感。白雪等不及春色的姗来迟,特意穿树飞花,装点出一派春色,突出了雪通人心的灵性。 2、情感主旨类 [题目形式] (1)这首诗表达了作者怎样的思想感情? (2)这首诗的主旨是什么? (3)这首诗反映了怎样的社会现实? (4)本首诗表现了怎样的情趣? [应对策略] (1)诗歌各句(或相关的句子)分别写了什么内容。 (2)运用了何种表达技巧。 (3)抒发了什么情感。 [题型示例] 欣赏下面一首诗,回答后面的问题。 丰乐亭游春①(其一)欧阳修 绿树交加山乌啼,晴风荡漾落花飞。 鸟歌花舞太守醉,明日酒醒春已归。 【注】此诗作于庆历七年,欧阳修被贬为滁州知州的第年。丰乐亭在琅琊山幽谷泉上,距醉翁亭不远,为欧阳修所建。 问题:这首诗表达了诗人怎样的思想感情? 解析:这首诗中出现了“绿树”、“鸟啼”、“晴风”和“落花”

相关主题
文本预览
相关文档 最新文档