社交情感分析与机器学习

摘要:关于社交媒体中的情感分析的关键技术、发展趋势和历史(btw:整理自糖姐姐的blog)

一、Tecent AI LAB

  • CV + ML + Speech + NLP(更难,还需10-20年)
  • 基础研究 + 产品(游戏,社交,音乐视频) + 开放(ai open platform)
  • 爬取data——数据清洗(抽取关系、事件等,整理和处理)——可视化
  • 个性化推荐:需要和文本相关,词的标签、分类;如何构建起用户兴趣;
  • 舆情分析
  • 情感分析deep emotion parsing

二、社交媒体中的情感分析

情感分析发展的7项关键技术

  • 情感分类
  • 情感元素抽取
  • 跨领域情感分析
  • 个性化情感分析
  • 隐式情感分析
  • 情感原因发现
  • 情感生成

情感分类

  • 1.基于传统ML方法的情感分类
  • 2.基于DL的情感分类
  • 3.面向评价对象的情感分类
  • 输入seq或篇章,输出情感类别

基于层次化神经网络的篇章建模

  • 篇章表示;篇章语义组合;句子表示;句子语义组合;词语表示
  • 传统做的话能达到80%->rnn在依存树基础上得到根节点的情感分类(基于句法分析)->cnn直接做全局和局部的上下文信息且速度快->得到情感词典、得到语言学约束加到损失函数中

基于DL的情感分类

文档级情感分析任务

  • 层级关系:词到句子,句子到篇章

情感抽取

3个任务:

  • 情感词语抽取
  • 评价对象抽取
  • 评价搭配抽取(二元组对应)

情感词典

评价对象搭配:<评价对象,评价表达>

跨领域情感分析

  • 从源领域到目标领域,相当于迁移学习
  • 问题:评价对象不同,评价表达不同,情感表达极性不同(程度不同)

个性化情感分析

基于用户用词习惯:不同群体情感倾向,主观想法和个人身份立场

基于认知理论的想法:

  • 用户画像(属性维度,性格维度,行为维度);
  • 把用户和产品用低维向量和矩阵表示,融入已有神经网络框架,应用到篇章级文本情感分类任务

基于网络结构的方法:社交媒体上用户之间的连接关系、相同情感倾向性

隐式情感分析

  • 中文情感表达方式复杂

事实型隐式情感分析

基于上下文的方法:挖掘句子外部信息;与句子内部信息相融合(基于图的融合算法)

基于特征+规则的意见挖掘模型:

  • 隐含情感特征可从形容词获知
  • 与情感词典中情感词贡献的得分信息
  • 利用conj处理上下文相关的特征
  • 利用两种直接依存关系来抽取名词产品特征
  • 去除那些直接同时被褒义、编译情感词修饰的产品特征

修辞型

反讽:大连理工林鸿飞的隐喻语料库

情感原因发现

基于文本

数据来源哈工大深圳徐睿峰

基于个体立场

现有方法难以解决立场问题

基于群体立场

民众情绪的自动归因(对焦点事件)、可能有子话题:比如沉船有人被救起

情感生成

评论文本生成

Affect-LM:基于LSTM的语言生成;情感类别信息/强度
Attri2Sequence+Attention

情感回复生成:emotional chatting machine

情绪对话生成评测:NLPCC2017比赛 首届情绪对话生成评测

  • 给定微博及用户指定情感,生成一条与该情感类型一致的回复。
  • 训练数据:100万对<微博,回复>

情感分析6大趋势

  • 从粗粒度到细粒度
  • 从单领域到跨领域
  • 从文本到社会媒体
  • 从显示情感到隐式情感
  • 从情感分类到情感原因
  • 从情感分析到情感生成

总结历史

20世界前:社会学为主:1967六度分割、1973weak tie、1995结构度

20世纪左右:物理学:hits、pagerank、smallworld、scale free

21世纪:计算机学:link prediction、network evolution:复杂化发展(加时间加地点)densification、social influnence分析

2009computational social science(giles)

社会计算学:很多节点和边组成的社交图

信息1.0:data:像是给一个query把文档排序(google是1.0重要代表)

大数据来了:it时代公司发展云,传统公司跳进来把数据存进去

信息2.0:数据➕用户,像是信息推荐(如今日头条是2.0时代重要代表)

信息3.0(未来):融合+智能

  • socail network = info space + social space
  • 数据语义 + 用户语义 = 知识 ——> 智能
  • 大数据需要知识,一定需要deep learning这个锄头去挖数据
  • 以交互驱动
  • 节点是用户,边是关系,以用户为核心和以边为核心两种建模方式
  • 难点:社会理论融合到概率图模型上,不仅需要how,更需要why

应用之一:舆情

未来:从单舆论场到多舆论场的融合(微博微信联合在一起)、从分析到预测(预测未来可能会发生什么,需要知识库推理)、综合人行为空间时间一起综合分析、从单语种到跨语种(全球化)、机器数据也是舆情、对重点事件做多维度分析(传播的指标)

舆情报告的智能化(ai写数据驱动的舆情报告)

Thanks!