当前位置: 首页 > 工具软件 > Conversations > 使用案例 >

DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations论文阅读笔记

夹谷衡
2023-12-01

DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations论文阅读笔记

第一遍阅读

标题:

“DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations”

摘要(“Abstract”):

作者提出了一种从认知角度出发充分理解会话上下文神经网络(DialogueCRN)

方法:“novel Contextual Reasoning Networks (DialogueCRN)”

作者设计了多轮推理模块来提取和整合情感线索。 推理模块迭代地执行一个直观的检索过程和一个有意识的推理过程,模仿人类独特的认知思维。

结论(“ Conclusion” ):

| 数据集 | ACC | weighted-F1 | Macro-F1 |

| - - - - - | - - | - - - - - - - - - | - - - - - - - |

| IEMOCAP | 66.05 | 66.20 | | 66.38

| MELD | 60.73 | 58.39 | 35.51 |

本论文引入了认知阶段(cognitive phase)

在认知阶段,设计了多轮推理模块,迭代执行直觉检索过程和有意识推理过程,模仿人类独特的认知思维。 最后,成功获取触发当前情绪的情绪线索,用于更好的分类。

在三个数据集上取得更好的效果,验证了考虑认知因素可以更好的理解情绪线索并提高ERC(“Emotion recognition in conversation” )的表现。

第二遍阅读

“1 Introduction”:

对话中包含上下文线索,这种线索会引发说话者的情绪,线索包括原因、情景等

国内外研究现况:

1:通过深度学习模型感知情感级或说话者级别的上下文

缺陷:不能理解通常包含丰富情感线索的上下文

1.难以提取情感线索:大多数方法通过静态记忆提取上下文,限制了捕获更丰富情感线索的能力

2.情感线索的整合:大多数方法使用注意力机制来整合编码过的情感线索,而忽略了其内在的语义顺序,这将导致失去线索间的逻辑关联,导致难以捕获引发情感的关键因素

本文的动因:

主要受到The Cognitive Theory of Emotion中”认知因素是情绪状态形成的有力决定因素。 这些认知因素可以通过在我们的大脑中反复执行直觉检索过程和有意识推理过程来捕获“

这一理论的启发,本文试图对这两个关键过程进行建模,以推理情感线索并充分理解对话上下文。 通过遵循认知阶段的工作记忆机制,我们可以迭代地执行两个认知过程来指导情感线索的提取和整合,模仿人类独特的认知思维

本文使用的方法:

使用DialogueCRN来充分理解对话上下文。

该模型在认知阶段(cognitive phase)提取以及整合文本(来自于感知阶段perceptive phase)情感线索

首先,在感知阶段(perceptive phase)使用LSTM(长短记忆网络)来捕获情境级和说话者级的上下文。基于上述上下文,可以获得全局记忆来存储不同的上下文信息。

第二,在认知阶段(cognitive phase)设计了多轮推理模块来迭代提取和整合情感线索。 推理模块执行两个过程,即 1 直觉检索过程和2 有意识推理过程。 前者利用注意力机制通过检索静态全局记忆来匹配相关的上下文线索,模仿直观的检索过程。 后者采用LSTM网络学习内在逻辑顺序,通过保留和更新动态工作记忆来整合上下文线索,模仿有意识的推理过程。 它速度较慢,但具有人类独特的理性

最终,根据上述情景级和说话者级的上下文线索,使用情感分类器来预测话语的情感标签。

为了验证模型的效果,使用了三个数据集:

1.IEMOCAP 2.SEMAINE 3.MELD

“2 Methodology”

2.1问题定义(Problem Statement)

U:对话集

Un:n代表对话中句子的数量标签

P:说话人

Pm:m代表说话人的数量标签

pφ(ui):φ表示对应句子及其说话人之间的索引

Uλ:Pλ所说话的集合

2.2Textual Features

输入是300维的预训练好的840B大小的Glo Ve向量,使用3个大小为3、4、5的过滤器,每个过滤器有50个特征图。这些特征图通过最大池化和ReLu激活函数进一步处理。

然后,将这些激活特征连接起来,最后投影到一个维度 du = 100 的密集层上,其输出形成话语的表示。

2.3Model(模型)

该模型由三部分组成

1 Perception Phase

2 Cognition Phase

3 Emotion Classifier

2.3.1 Perception Phase(感知阶段)

在感知阶段,基于输入的文本特征,我们首先在情景级别和说话人级别生成会话上下文的表示。 然后,获得全局记忆来存储不同的上下文信息。

会话级上下文表示

长短期记忆 (LSTM) 将门控机制引入循环神经网络,以从输入序列中捕获长期依赖关系。 在这一部分中,利用两个双向 LSTM 网络分别捕获情景级和说话者级上下文依赖关系。

基于上述会话上下文表示,可以获得全局记忆,通过线性层存储不同的上下文信息。

2.3.2 Cognition Phase(认知阶段)

推理模块执行两个过程,直观检索过程和有意识推理过程。 在第 t 轮的推理过程中,我们采用 LSTM 网络来学习内在的逻辑顺序,并将上下文线索整合到工作记忆中,速度较慢,但具有人类独特的理性

对于检索过程,我们利用注意力机制来匹配来自全局记忆的相关上下文线索。

2.3.3 Emotion Classifier

用一个softmax层接受输入,并给出输出

使用交叉熵作为损失函数

“3 Experimental Setups”

3.1 Datasets(数据集)

IEMOCAP

SEMAINE

MELD

3.2 Comparisons Methods

其他方法提取信息都不够全面,就他两种角度(situation and speaker)都考虑到了

m

 类似资料: