摘要:关于社交媒体中的情感分析的关键技术、发展趋势和历史(btw:整理自糖姐姐的blog)
一、Tecent AI LAB
- CV + ML + Speech + NLP(更难,还需10-20年)
- 基础研究 + 产品(游戏,社交,音乐视频) + 开放(ai open platform)
- 爬取data——数据清洗(抽取关系、事件等,整理和处理)——可视化
- 个性化推荐:需要和文本相关,词的标签、分类;如何构建起用户兴趣;
- 舆情分析
- 情感分析deep emotion parsing
二、社交媒体中的情感分析
情感分析发展的7项关键技术
- 情感分类
- 情感元素抽取
- 跨领域情感分析
- 个性化情感分析
- 隐式情感分析
- 情感原因发现
- 情感生成
情感分类
- 1.基于传统ML方法的情感分类
- 2.基于DL的情感分类
- 3.面向评价对象的情感分类
- 输入seq或篇章,输出情感类别
基于层次化神经网络的篇章建模
- 篇章表示;篇章语义组合;句子表示;句子语义组合;词语表示
- 传统做的话能达到80%->rnn在依存树基础上得到根节点的情感分类(基于句法分析)->cnn直接做全局和局部的上下文信息且速度快->得到情感词典、得到语言学约束加到损失函数中
基于DL的情感分类
文档级情感分析任务
- 层级关系:词到句子,句子到篇章
情感抽取
3个任务:
- 情感词语抽取
- 评价对象抽取
- 评价搭配抽取(二元组对应)
情感词典
评价对象搭配:<评价对象,评价表达>
跨领域情感分析
- 从源领域到目标领域,相当于迁移学习
- 问题:评价对象不同,评价表达不同,情感表达极性不同(程度不同)
个性化情感分析
基于用户用词习惯:不同群体情感倾向,主观想法和个人身份立场
基于认知理论的想法:
- 用户画像(属性维度,性格维度,行为维度);
- 把用户和产品用低维向量和矩阵表示,融入已有神经网络框架,应用到篇章级文本情感分类任务
基于网络结构的方法:社交媒体上用户之间的连接关系、相同情感倾向性
隐式情感分析
- 中文情感表达方式复杂
事实型隐式情感分析
基于上下文的方法:挖掘句子外部信息;与句子内部信息相融合(基于图的融合算法)
基于特征+规则的意见挖掘模型:
- 隐含情感特征可从形容词获知
- 与情感词典中情感词贡献的得分信息
- 利用conj处理上下文相关的特征
- 利用两种直接依存关系来抽取名词产品特征
- 去除那些直接同时被褒义、编译情感词修饰的产品特征
修辞型
反讽:大连理工林鸿飞的隐喻语料库
情感原因发现
基于文本
数据来源哈工大深圳徐睿峰
基于个体立场
现有方法难以解决立场问题
基于群体立场
民众情绪的自动归因(对焦点事件)、可能有子话题:比如沉船有人被救起
情感生成
评论文本生成
Affect-LM:基于LSTM的语言生成;情感类别信息/强度
Attri2Sequence+Attention
情感回复生成:emotional chatting machine
情绪对话生成评测:NLPCC2017比赛 首届情绪对话生成评测
- 给定微博及用户指定情感,生成一条与该情感类型一致的回复。
- 训练数据:100万对<微博,回复>
情感分析6大趋势
- 从粗粒度到细粒度
- 从单领域到跨领域
- 从文本到社会媒体
- 从显示情感到隐式情感
- 从情感分类到情感原因
- 从情感分析到情感生成
总结历史
20世界前:社会学为主:1967六度分割、1973weak tie、1995结构度
20世纪左右:物理学:hits、pagerank、smallworld、scale free
21世纪:计算机学:link prediction、network evolution:复杂化发展(加时间加地点)densification、social influnence分析
2009computational social science(giles)
社会计算学:很多节点和边组成的社交图
信息1.0:data:像是给一个query把文档排序(google是1.0重要代表)
大数据来了:it时代公司发展云,传统公司跳进来把数据存进去
信息2.0:数据➕用户,像是信息推荐(如今日头条是2.0时代重要代表)
信息3.0(未来):融合+智能
- socail network = info space + social space
- 数据语义 + 用户语义 = 知识 ——> 智能
- 大数据需要知识,一定需要deep learning这个锄头去挖数据
- 以交互驱动
- 节点是用户,边是关系,以用户为核心和以边为核心两种建模方式
- 难点:社会理论融合到概率图模型上,不仅需要how,更需要why
应用之一:舆情
未来:从单舆论场到多舆论场的融合(微博微信联合在一起)、从分析到预测(预测未来可能会发生什么,需要知识库推理)、综合人行为空间时间一起综合分析、从单语种到跨语种(全球化)、机器数据也是舆情、对重点事件做多维度分析(传播的指标)
舆情报告的智能化(ai写数据驱动的舆情报告)