type
status
date
slug
summary
tags
category
icon
password

📝 OCSR论文阅读笔记

1.[2023-ICCV]MolGrapher: Graph-based Visual Recognition of Chemical Structures

1.1 Introduction

当前OCSR的挑战性:
  • 同一个分子结构有多种不同绘制方式
  • OCSR需要从图像中提取详细信息
  • 分子数量具有无穷无尽
  • 现有数据集较少
主流方法包括三种:
  • graph reconstruction paradigm
  • image caption paradigm:自回归方式每次添加一个原子会阻止充分利用图结构。基于图像字幕的方法仍然落后于Sota的规则方法。当分子大小和复杂性增加时,基于字幕的方法性能会严重下降,因为他们很难从复杂图像中恢复完整信息。
  • rule-based methods:目前来看结果仍然较好

1.2 Method

完全基于图结构,Pipeline如下,包括关键点检测器,节点分类器和图神经网络GNN组成。关键点检测器定位原子和缩写,构建supergraph,和节点分类器结构融合之后输入到GNN中。通过单独的OCR来识别缩写。

1.3 Experiment

Dataset包括:USPTO,Maybridge UYoB,CLEF-2012,JPO,USPTO-10K,USPTO-10K-Abb,USPTO-10K-L
notion image

2.[2023-ACMMM]Handwritten Chemical Structure Image to Structure-Specific Markup Using Random Conditional Guided Decoder

2.1 Abstract

目前化学结构识别中仍然存在以下问题:
  • 如何识别手写的原子和键
  • 如何将二维分子布局转换为字符串表示
提出了一种端到端的手写化学公式识别架构,使用RCGD(随机条件引导编码器)来解决分子结构的多路径问题,使用SSML(结构特定标记语言)来描述分子结构以降低复杂度和歧义。
最后,在提出的手写化学结构图像数据集EDU-CHEMC上进行了验证。

2.2 Introduction

我们使用SSML来最小化分子结构图像和序列样式标记之间的语义差距,使用RCGD来解决分子结构的多路径解码问题,可以将其视为图遍历。
RCGD 的遍历过程如下图所示:
notion image
使用DenseNet作为网络主干,取得了EM指标上的SOTA表现,Mini-CASIA-CSDB数据集上95.01%,EDU-CHEMC上62.86%。主要贡献:
  • 新的数据集EDU-CHEMC
  • 新的结构标记语言SSML
  • 新的解码器RCGD

2.3 Method

  1. 特殊结构标记语言
SSML源于Chemfig,Chemfig提供了化学键“角度”的描述,使得Chemfig能够完整表示分子结构并更加容易可视化。但是它存在以下问题:
  • Chemfig语法的歧义性。不同的起点和遍历顺序会产生多个序列,它们都能表示相同的分子图像。
  • Chemfig语法过于复杂,需要先验规则和领域知识
因此,扩展了Chemfig并提出了SSML
notion image
SSML 生成方式如下:
  • 从指定的起点开始遍历
  • 在遍历过程中将原子和化学键添加到输出字符串中,使用”<bond>[:<angle>]”来描述化学键类型和角度信息,在建图时计算角度
  • 当遇到多分支点时,根据化学键角度进行升序遍历。对于选定的分支,使用”()”将其包裹。
  • 当检测到重连接,使用 “?[<tag>]“和”?[<tag>,<bond>]”来将其连接。
  • 对于苯环中的环,将其视为一种特殊的原子,定义为”\circle”,通过”- -”与环中原子相连。
  • 遍历完成即可获得SSML表示。共包含五种元素,原子团,键,角度,phantom和重连接tag
  1. 随机条件引导解码器
本文采用LaTex-based字符串解码范式
使用编码器进行特征提取,解码器进行自回归解码。
虽然字符串解码器可以很好拟合训练数据,但是它很难理解不同建模单位的含义,导致在复杂的分子结构中泛化性能很差。因此,提出RCGD,它整合了三种机制解决该问题:条件注意引导、记忆分类和路径选择。
  • 移除了分支和重连接表达
  • 添加分支结束符号
  • 添加分支角度集合M
条件引导机制:遍历图的过程中,如果仅根据固定角度顺序进行解码,随着解码步骤的延长,模型可能会“忘记”哪些角度单元尚未解码。为了解决这个问题,将角度方向作为条件信息指导解码过程。
记忆分类机制:添加一个简单的分类器来预测重连键的角度和类型。
路径选择机制:在训练过程中随机采样不同的路径,以提高视觉信息和解码字符之间的对应程度。让解码字符串和原始图像结构能够更加对应,利于机器理解图像结构,提高识别效果。导致产生多种路径,使用Beam Search来根据路径得分进行搜索。

3.[2022-ECCV]CoMER: Modeling Coverage for Transformer-based HMER

3.1 Abstract

Transformer模型存在覆盖率不足的问题,本文中我们将RNN中的覆盖注意力引入到Transformer中,提出了CoMER,一种在 Transformer 解码器中采用覆盖信息的模型。使用一种新颖的注意力细化模块(ARM),以利用过去的对齐信息细化注意力权重,而不损害其并行性。CoMER 将HMER任务在CROHME2014/16/19任务上 ExpRate 提高了 0.61%/2.09%/1.59%。

3.2 Introduction

现有的Transformer与RNN一样会受到缺少覆盖注意力机制的影响,即“过解析”——图像的某些部分被不必要地多次解析,以及“欠解析”——有些区域未被解析。为了充分利用来自不同层的过去对齐信息,提出了自覆盖和交叉覆盖,分别利用来自当前层和前一层的过去对齐信息。
notion image
notion image
 
 

4.[2020-ICML]A Tree-Structured Decoder for Image-to-Markup Generation

4.1 Abstract

成功的主要原因:
  • 严格遵循树的亲子结构
  • 它明确输出树而不是线性字符串

4.2 Introduction

在很多非线性问题上,尤其是涉及多分支结构,例如数学公式识别和化学公式识别中,尤其需要树形结构来表示。
notion image
尽管String decoder可以用来处理树形结构,但是它通常通过DFS顺序遍历来序列化结构,没有机制来保留节点的亲子关系。
为了实现循环解码,目标树会被递归分解成子树。使用注意力模型来定位父节点,根据识别结果来生成子节点。此外,tree decoder可以与编码器以端到端的方式联合优化。

4.3 Methodology

在训练阶段,提供真实父节点来预测其子节点。在预测阶段,首先生成N个最可能的父节点,根据这些节点来预测子节点。
在解码过程中,为了保证父节点正确的选择,使用子节点在有序子树序列中的位置作为中间变量而不是子节点的char(可能重复)。
notion image
 
 

5.[2023-ICASSP]General Category Network: Handwritten Mathematical Expression Recognition with Coarse-Grained Recognition Task

5.1 Summary

HMER任务中相似符号的识别很困难,为了解决这个问题,提出了通用类别识别任务GCRT并设计了对应的网络GCN来并行执行类别识别和HMER。(来源于Count)
除了类别识别之外,还提出使用多粗粒度任务来和HMER并行优化,并为HMER引入额外粗粒度信息,提高识别效果,辅助任务包括符号计数Count,预测符号是否存在Exist,符号类别等等。
notion image
GCN网络的结构具体如下图所示。
notion image

5.2 Experiment

notion image
辅助任务不一定越多越好,可以看到HMER+Exist+Count+GCRT反而得到了最低的ExpRate。
  • 更多的任务并不总会带来更好的效果
  • 当单个任务和HMER强相关时,可以促进HMER,反之亦然
  • 当向HMER添加多个辅助任务时,应全部考虑辅助任务之间的相关性以及辅助任务与HMER之间的相关性(感觉有点玄学)
 
 

6.[2022-ECCV]When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition

6.1 Summary

目前HMER任务大多采用ED架构,利用Att直接从公式图像中预测标记序列。这可能无法准确读取结构复杂的公式或生成长标记序列,因为由于书写风格或空间布局的巨大差异,注意力结果往往不准确。为了缓解这个问题,提出了CAN(Counting-Aware Network)。
直觉包括以下两个方面:
  • 符号计数能够提供符号级位置信息,可以使注意力结果更加准确。
  • 计数结果代表每个符号类别的数量,可以作为额外的全局信息以提高识别准确性。
因为,将计数模块与ED相结合,提出了名为计数感知的统一网络。
notion image

6.2 Method

  • 多尺度计数模块
notion image
由于书写习惯的不同,公式图像通常包含各种大小的符号。单一内核大小无法有效处理尺度变化。为此,我们首先利用两个并行的卷积分支,通过使用不同的内核大小(设置为 3×3 和 5×5)来提取多尺度特征。
由于符号计数主要针对于前景,因此在理想情况下背景的相应应该接近于0,经过1*1卷积之后利用Sigmoid激活函数生成Counting Map求和即可得到计数向量,即每一个类别的数量。
  • 计数组合注意力解码器
notion image

6.3 Experiment

notion image
 
 

7.[2021-NIPS]Computer-Aided Design as Language

 
 
 
 

8.[2022-CVPR]Syntax-Aware Network for Handwritten Mathematical Expression Recognition

8.1 Summary

首个将语法信息融入到Encoder-Decoder中。提出了一组语法规则,用于将每个表达式的LaTex标记序列转化为解析树,之后,我们将标记序列的预测建模为使用深度神经网络进行树遍历过程。通过这种方式,所提出的方法可以有效地描述表达式的语法上下文,缓解了HMER的结构预测错误。
我们的直觉是理想的HMER模型应该根据句法关系解析手写的数学表达式图像,同时有效缓解复杂结构和潦草文字带来的预测误差。我们的网络可以有效地将语法树划分为不同的组件,以减轻由树结构歧义引起的错误。
notion image

8.2 Synatx-Aware Network

将SAN定义为7元组,N为非终结符,为终结符,R为规则集,S为起始符,为关系集,C为Encoder,D为Decoder。R产生的规则用于构造解析树。
规则有两个约束:(1)遵循标准的阅读顺序,从左到右,从上到下。(2)利用相邻符号之间的空间关系。右、上、下、右下、左上、右上、内侧。利用指定的规则可以保证ME产生相同的Latex序列。
R有两种产生式规则。(1)S产生任意终止符后面必须跟S,E或空str。(E为非终结符)。(2)E 为每种类型的关系生成一个字符串,然后将它们连接起来。
notion image
通过堆栈遍历树,实现的堆栈可以保证按照语法树上的遍历顺序进行训练过程,预测过程也是类似的。编码器对输入图像进行编码。然后根据语法规则,识别表达式及其可扩展结构,解码器选择概率最高的产生式规则。生成新表达式并更新Latex序列解析树。构造完成解析树之后,通过前序遍历树来获取识别结果。
notion image
不使用覆盖注意力,而是沿着从解析树的根到当前解析节点的路径作为过去的注意力概率。
使用注意力自调节策略来纠正注意力。使用额外的反向解码器来预测每个给定子节点的父节点。反向解码器与原始解码器具有相同的结构,但对数据进行相反的操作。
反向解码器与SAN联合训练,推理过程中忽略。
Loss为符号损失(Symbol)、关系损失(Relation)、反向符号损失(Lrev symbol)和注意力自正则化损失(Lreg)之和。
notion image
 
 
 

9.ChemPix: automated recognition of hand-drawn hydrocarbon structures using deep learning

notion image
  • 采用CNN编码器和具有Attention的RNN(LSTM)解码器
  • 采用逐个字符匹配计算精度,优化Loss
 

10. [2023-TMM]Improving Handwritten Mathematical Expression Recognition Via Similar Symbol Distinguishing

  • 通过引入路径签名特征来提高特征提取进度,该特征结合了局部书写细节和全局空间信息。
  • 开发了一种语言模型来纠正仅基于视觉的识别模型误分类的符号。
  • 设计了基于动态时间规整(DTW)的算法解决现有集成方法中的错位问题。

10.1 Method

notion image
notion image
 
notion image
 
 

11. [2023-ICCV]MolGrapher: Graph-based Visual Recognition of Chemical Structures

notion image
采用自底向上的方法构建分子的图结构,先检测原子,然后使用视觉嵌入检测可能存在的边,最后对原子和边进行分类。
  • Keypoint detection检测原子和键,构建Supergraph。(允许原子团)
  • 三倍键长范围内搜索,删除部分连接。限制最多有6个键 (化学先验)
  • 使用图神经网络对Supergraph中的原子和键节点进行分类。
  • 超原子使用外部OCR识别
 
 
 

12.[2023-JCIM] MolScribe: Robust Molecular Structure Recognition with Image-to-Graph Generation

同样直接对Graph进行建模,生成分子的图结构。在预测的时候一次输出每个原子的类别和坐标,然后两两预测原子之间的关系,即是否有连接以及连接的类型。
缺陷在于对数据质量要求高,需要像素、坐标级别的精细标注,标注不太友好
对手写场景不友好,训练集主要靠合成,和手写图像特征差异较大
notion image
 
 

13.[2022-PR]Tree-based data augmentation and mutual learning for offline handwritten mathematical expression recognition

通过基于树的互学习提出了一种ED混合模型,充分利用树解码器和字符串解码器之间的互补性 字符串解码器:数据驱动型,无法明确使用数学语法;树解码器:结构驱动.利用互学习的方式取长补短,增强树解码器的语言建模能力。

13.1 Method

notion image
  • 主分支中的树解码器包括父解码器、子解码器和关系预测模块。而树解码器将符号识别和结构解析分为两部分。
  • 父解码器预测父节点,子解码器预测子节点,注意力模块中进行节点对齐。
  • 字符串解码器->隐式学习语言模型,视觉信息不足时仍然可以识别。树解码器->内部子树结构,识别复杂结构能力更强。
  • 将字符串解码器以后验概率的形式提供训练经验psd。KL散度衡量二者预测的匹配度。
notion image
利用KL散度来度量二者分布像思想,Loss为主分支和辅助分支loss之和。
notion image

结尾(便于定位)

 
 
 
 
 
 
 
 
 
 
 
相关文章
MMIVQA方法调研保研专业课复习-数学
JsingMog
JsingMog
一个热爱探索未知的少年
公告
type
status
date
slug
summary
tags
category
icon
password
🎉JsingMog个人博客将持续更新🎉
博客将涉及各种内容
个人成长、研究历程、升学经历等等
-- 感谢您的支持 ---
👏欢迎到来👏