Sequence-to-sequence Domain Adaptation Network for Robust Text Image Recognition笔记

郑俊材
2023-12-01

简介

  Domain adaptation 可以解决不同域之间的偏移的问题。之前大多数的工作都没有考虑连续序列的问题,都是对于单一内容的。这篇文章中,作者提出了一个SSDAN的网络来做文本识别。其中的gateed attention similarity用来将源域和目标域的字符特征分布来对齐。对文本识别带来提升。

domain adaptation的好处

  如何训练一个鲁棒的识别器能够很好地识别所有类型的字体?最直接的方法是使用所有类型的数据集来训练,拟合出一个很好地网络。但是数据集的标注需要巨大的消费,因此,如何无监督地使用数据集是一个很好地方法。使用domain adaptation是一个很好的使用无标注数据集的方法来减少源域和目标域的分布偏差。这样就能够使得之前使用有标注的数据集训练好的模型泛化到无标注的数据集上,解决了不同域之间的偏移问题。

实现的方法

文本识别模块

  通过cnn网络输出H*W*C的特征图。把通道维度的特征作为1维的 vector,H和w相乘的值作为序列的总数。这个序列输入lstm做attention,将求出的attention的值与原序列相乘得到一个字符的context vector。之后通过一个GRU来做decoder。下一个时刻的隐藏层利用了前一时刻隐藏层,输出层,和当前字符的context vector。

GAS模块

  通过前面的encoder和decoder的模块,我们可以将字符串转换为一个字符特征序列。在字符序列特征的空间中,不同域提取出来的特征应该尽可能的靠近。这样就可以减少两个域特征空间之间的距离。两个域的图片得分别得到字符的特征序列。这时,出现了一个问题:如果attention不准确,会导致context vector并不是对应字符的特征。因此作者设立了一个判断条件,如果网络能够通过这个context vector预测出正确的值,那么就保留这个特征,反之则除去。 然后对这两个与的特征计算距离。有MMD(norm of difference between two domain),CORAL(covariance of two domain)和adversial(uexidao的特征不能够分辨到底是source还是target) 的loss。
实验试下来,CORAL的效果最好。

loss

 &esnp;就是上面两个模块的两个loss的叠加。有个超参来平衡这两个loss。

 类似资料: