Document Analysis and Graphics Recognition : CG and CAD Developments Dr. Tong Lu

Document Analysis and Graphics Recognition: CG and CAD Developments Dr. Tong Lu Department of Computer Science and Technology 南京大学计算机科学与技术系路通博士 2006年11月3日

PART I – Document Analysis and Graphics Recognition–What is document analysis? What is graphics recognition? What are document analysis contents? Are there interesting areas of graphics recognition and document analysis? Are there famous organizations, international conferences or journals ? How about native journals ? PART II - Areas of document analysis/graphics recognition and typical applications PART III – Developments in CG and CAD

newspapers, magazines, engineering drawings, books, music scores and handwritten matter (such as notebooks, personal letters) … large number of existing documents and a multitude of new ones every year raise important issues in efficient handling, retrieval and storage of the documents and the information they contain. 1. Document Analysis and Graphics Recognition Contents

The emergence of new research domains dealing with the recognition by computers of the constituent elements of documents Characters Symbols Texts Lines Graphics Images Handwriting … Document Analysis Contents

In addition, these new domains deal with automatic analyses of the overall physical and logical structures of documents, with the ultimate objective of a high-level understanding of their semantic content. What is “document analysis” ? The state-of-the-art in document recognition, understanding, management and retrieval, including multimedia documents. What is Document Analysis ?

What is “graphics recognition” ? A sub-field in document analysis, which recognizes different levels of graphics from various types of documents, and finally provides high-level contents. One of the most important methods in document analysis. Recognition of multimedia information is not included herein. What is Graphics Recognition ?

Document analysis brings together both researches from divergent fields such as Computer Graphics Computer Vision Image Analysis Pattern Recognition Artificial intelligence (Machine Learning, Data Mining …) Information Retrieval, … What is Document Analysis ?

Typical topics of document analysis include Graphics Recognition Document Image Processing Handwriting Models and Analysis Character and Word Recognition On-line Recognition Pen Based Computing Multi-ligual Processing Physical and Logical Analysis Document Analysis Areas

Map and Line Drawing understanding Storage and Retrieval of Documents Text Analysis and Processing Natural Language Issues Information Extraction and Filtering Performance Evaluation Multimedia and Hypermedia Analysis Document Models Implementations, Applications and Systems Document Analysis Areas

IAPR（Internal Association of Pattern Recognition）TC-10 模式识别领域的专业性国际组织，它的第十个技术分会（TC-10）专门面向图形识别领域从1991年开始，IAPR与工程技术界的权威机构IEEE（Institute of Electrical & Electronic Engineers）联合举办国际文档分析识别会议ICDAR（International Conference on Document Analysis and Recognition）为各种类型的文档识别研究（包括文字文档、图形文档和混合文档）提供专门的论坛。1998年创办文档分析与识别专业国际期刊《 International Journal on Document Analysis and Recognition 》 International Organizations of Document Analysis

Top international journals 《IEEE Transaction on Pattern Analysis and Machine Intelligence》, PAMI 《Artificial Intelligence》, AI Most are milestone works First-class international journals 《Pattern Recognition》 Some IEEE Transactions Most are significant works International Journals and Conferences on Document Analysis

Second-class international journals 《IEEE Conference on Computer Vision and Pattern Recognition》、《Pattern Recognition Letters 》，《 Computer Vision, Graphics, Image Processing 》，《 Image and Vision Computing 》，《 Computer Vision and Image Understanding 》，《 Machine Vision and Application 》… Some journals of Elsevier, Kluwer, Springer Most are very good works Third-class international journals Most international journals Most are good works Other journals International Journals and Conferences on Document Analysis

Top conferences Such as IJCAI (International Joint Conference on Artificial Intelligence) First-class conferences Most ACM conferences Some IEEE conferences Second-class conferences Most IEEE conferences 国际模式识别会议ICPR（International Conference on Pattern Recognition） Third-class conferences Most international conferences in developing countries International Journals and Conferences on Document Analysis

Top native journals 中国科学科学通报 First-class native journals 计算机学报、软件学报、电子学报、自动化学报、计算机研究与发展 Second-class native journals 模式识别与人工智能、CAD与图形学学报等 Third-class native journals 计算机科学、小型微型计算机系统等 other journals Most Chinese journals How about Chinese Journals and Conferences ?

PART I - Document analysis contents PART II - Areas of document analysis/graphics recognition and typical applications– What is vectorization ? How to recognize lines, arcs and curves ? How to recognize symbols ? How to recognize texts ? PART III – Developments with CG and CAD

将纸质图扫描输入计算机后，对所得的扫描位图加以分析、识别，最终重建其中的图形对象的过程，称为矢量化。将纸质图扫描输入计算机后，对所得的扫描位图加以分析、识别，最终重建其中的图形对象的过程，称为矢量化。输入数据：工程图的光栅图像输出数据：工程图中包含的图形对象（供CAD系统使用）核心技术：图形识别技术、符号识别技术和文字识别技术 Vectorization of Engineering Drawings

图纸矢量化研究的最初目的是为了易于编辑和节省图纸的存储空间图纸矢量化研究的最初目的是为了易于编辑和节省图纸的存储空间图纸扫描后得到的光栅图像以象素为表示单元，因此对其中图形对象的编辑只能通过象素级操作进行，效率很低图像中包含大量的冗余信息，例如一张A0尺寸的工程图纸用300dpi的分辨率、单色扫描后的扫描图像文件大小在15MB左右图形文件既可以在不损失信息的前提下大幅度减少存储空间，又可以灵活、高效地编辑和复用已有工程图，因此有明显的应用价值 Vectorization of Engineering Drawings

矢量化的研究从70年代开始。最初的应用范围很窄，主要处理地图；方法也较单一，通常采用细化算法或轮廓检测算法加以简单的线条拟合得到矢量结果矢量化的研究从70年代开始。最初的应用范围很窄，主要处理地图；方法也较单一，通常采用细化算法或轮廓检测算法加以简单的线条拟合得到矢量结果 80年代－90年代，CAD系统的应用需要将大量纸质图转换成CAD系统能够处理的格式，从而引发了对矢量化的研究商品化的矢量化软件：如德国Softelec公司的VP-Studio、挪威Rasterex公司的RxSpotlight、美国GTX公司的GTXRaster CAD PLUS Karl Tombre评价矢量化研究时认为现有方法尚未成熟，“None of these methods works”。精度和速度不高，对噪音、缺损敏感等，尚不能满足工程自动化需要。矢量化研究仍然是图形学与模式识别交叉领域中的一个热点 Vectorization – Developments

细化方法 采用各种边界腐蚀操作逐层削去图像的外边界象素点，直到留下单象素宽的骨架点并将其转化成链码表示，然后通过折线拟合将链码转化成低级矢量格式（直线段或折线段），最后用基于矢量的图形识别方法在短线段中识别出其中的图形对象主要缺点是丢失了线宽信息、在无交点处对噪音敏感和在交点处造成畸变；反复遍历象素点和大量的短线段合并的速度很慢 Vectorization – Methods

轮廓方法 先提取出图像的轮廓，然后找出匹配的轮廓对，在每个轮廓对之间用对应轮廓点的中点可以拟合出该段图像的中心线（见图），最后在所有中心线中搜索、拼接来恢复完整的图形对象可以避免遍历全部象素点并能保持线宽信息，但由于在相交、粘连处无法找到轮廓对，必然会将一个完整的图形对象分为多段，并且当线条位图退化时，轮廓之间常常存在一对多的对应关系，给匹配带来困难 Vectorization – Methods

邻接图方法 先对图像进行游程编码(Run length encoding)；然后分析行段生成各种形式的邻接图结构，由图像中的线状区域的行段中点拟合而成的线段作为邻接图中的边，非线状区域（相交或粘连处）作为邻接图中的节点连接相邻的边（见图）；最后在图结构上进行线段延伸、合并识别图形对象对游程编码的扫描方向的依赖性导致斜线矢量化的质量较差；图纸质量较差时对节点的分析（如出、入度计算）非常困难 Vectorization – Methods

象素跟踪方法 通过象素级跟踪获得图像的中轴线没有耗时的预处理（如细化、轮廓跟踪、行程编码等），因而在速度上优于前几类方法稀疏象素跟踪法（SPV—Sparse Pixel Vectorization）从任意可靠中点开始按预定步长沿水平或垂直方向进行跟踪，获得每一步的中点（对斜线则用水平和垂直方向交替跟踪）。跟踪完整个图像后，对所得的中点序列加以折线化去除冗余点得到图像的中轴线表示。最后在轴线的基础上识别图形对象 Vectorization – Methods

如果交点和粘连部分的尺寸大于跟踪步长，跟踪就会停止如果交点和粘连部分的尺寸大于跟踪步长，跟踪就会停止跟踪时没有明确的方向约束，并且总是按水平或垂直方向扫描象素，在某些相交情况下跟踪就会偏离某些临界角度时会停止跟踪造成这种缺陷的根本原因是没有按照对象本身的方向进行跟踪

难以正确地处理图形对象相交情况 一条线段的位图识别成多条短线段，导致了第二阶段中为合并所需的大量短线段搜索、测试和拼接操作，并且多段之间由于噪音、缺损等造成的方向不一致性给拼接操作带来困难噪音、缺损等造成的方向不一致性矢量化的速度、精度、准确率 Vectorization – Difficulties

图形对象之间的粘连情况 当两条平行直线段互相粘连时，它们在第一阶段的转换后会共享同一条线段（图中原有的长线条在b线段处断开）。如果第二阶段的线段合并算法区分线宽，则短线段a、b、c不会被合并；否则，不区分线宽时a、b、c会被合并，而另一条短线就丢失了。显然上述都不是正确结果局部与整体的关系、语义分析等 Vectorization – Difficulties

Vectorization – Graphics Recognition

Characteristics of Graphics

直线：具有自相似性，即直线上任一部分的特征都与整体的特征相似。因此对于相交、粘连情况的直线，只要在直线上的某段规则部分（无相交、粘连）检测到方向和线宽，可确定整条直线的方向和线宽直线：具有自相似性，即直线上任一部分的特征都与整体的特征相似。因此对于相交、粘连情况的直线，只要在直线上的某段规则部分（无相交、粘连）检测到方向和线宽，可确定整条直线的方向和线宽圆弧：具有自相似性。但圆弧特征的检测比直线特征复杂一些，因为规则圆弧段必须足够长才可以保证根据该圆弧段确定的圆心和半径真实反映了圆弧走向曲线：曲线类型和曲线参数的不同而具有多样性，且不具有自相似性，难以在未知曲线类型和曲线参数情况下检测曲线特征 Characteristics of Graphics

符号与文字的特征更加复杂，不同的符号在形状、尺寸、轮廓和象素密度等各方面存在很大差异符号与文字的特征更加复杂，不同的符号在形状、尺寸、轮廓和象素密度等各方面存在很大差异 Characteristics of Graphics

Recognition Processes

Line Recognition • 直线是工程图中最基本的、并且占绝对数量的图形对象，直线矢量化的质量成为评价矢量化方法的重要方面 • 现有直线矢量化方法主要思路：将光栅图转换为低级矢量格式，在低级矢量格式上识别直线 • 在第一阶段使用各种各样的细化或轴线化方法将图像转换为中心点链时涉及大量的象素级操作，并在其后表示成低级矢量格式时涉及大量的距离运算，计算量大并且对噪音敏感；字线粘连、线线相交等因素还会引起一条完整直线的分段矢量化，噪音、缺损等扫描位图中的常见现象造成每一段的方向偏离则使线段合并等后处理变得十分困难

Line Recognition • 第二阶段在低级矢量格式上识别直线的算法复杂、速度慢、并且生成的直线精度不高。由中心点链（或短线段）生成直线的方法通常有两种： • 搜索到一组共线短线段后，用最小二乘法拟合出直线；反复遍历短线段和大量的迭代运算而非常耗时 • 用直线Hough变换在中心点链中找出共线的点组成直线；变换运算量和参数空间的存储开销太大 • 对斜线的处理能力明显低于对水平线或垂直线的处理能力，使直线矢量化的质量产生方向依赖性

Line Recognition • 改进方法一 • 动态Hough变换、概率Hough变换、随机Hough变换、采样Hough变换等，但对于大尺寸的工程图处理效率较低 • 改进方法二 • 直接从图像中识别直线：通过在线状的黑象素区域中检测最大内接圆来获得直线的特征

Line Recognition • 在线状的黑象素区域中检测最大内接圆来获得直线的特征；如果在最大内接圆中只有一条直径的两端在黑象素区域的边界上，则该象素区域可能包含直线 • 以该直径的垂直方向作为直线的初始方向反复调整直线方向，并记录各方向上以从圆心出发的测试射线在离开黑象素区域之前的一段为轴、直径为宽的矩形覆盖黑象素的面积 • 取覆盖面积最大的方向为最终的直线方向，同时也确定了直线段

Line Recognition • 缺点 • 用内接圆来检测直线的特征不直观、也不够可靠，通过内接圆成功识别直线的比率较低 • 基于区域的反复测试正确方向的过程效率不高，并且在复杂环境中测得的最终方向仍可能不够准确，导致识别出的直线不完整 • 不能识别虚线

Line Recognition • 改进方法三 • 基于种子段的直线整体矢量化方法：寻找种子段来获得待处理直线的特征（方向、线宽）；然后依据特征方向延伸种子段，使其生长为一条完整的直线，从而避免了中心点链拟合和分段矢量化。同时，由于寻找与延伸种子段的算法都与方向无关，对任意方向的直线具有相同的处理能力

Line Recognition • 种子段 • 是直线的图像上能够表征其方向和宽度的一组位图，它是同时满足一定条件的矩形连通区。种子段的长轴方向和短轴长度分别反映了其所在直线的方向和线宽

Line Recognition • 跟踪直线段 • 基于Bresenham直线扫描转换算法 • 延伸过程中检查下面两个条件来决定种子段是否可以继续延伸 • 跟踪路径上连续白点段的长度小于虚线间距的阈值（跳过小的位图缺损并可跟踪虚线） • 跟踪路径上连续黑点段上每一点处的与路径正交方向的连通长度接近或大于种子段确定的初始线宽（能够通过相交、粘连区域）

单侧分支 中心线两侧分支已擦除线分支轮廓的趋势 Line Recognition • 保留交点信息的擦除 • 对于一条孤立的直线，按线宽擦除位图的操作很容易实现 • 当直线与其它图形或文字相交时，交点的多样性使问题复杂化。事实上，由于与其相交的对象尚未识别，要准确计算交点处应该保留的部分是非常困难的

Line Recognition • 示例

从各种图形对象混合的环境中发现圆弧 基于型值点的方法：通过不同的途径从图像中获得一个圆弧的型值点集合，然后由型值点计算出圆弧的参数统计方法（常用的是最小二乘法）拟合出一个最符合所有型值点的圆弧象素跟踪方法：根据某种图形约束直接从图像中跟踪出圆弧在黑象素区域中跟踪直线段，如果相邻的三个直线段的中垂线共点，则生成一个初始圆弧；后继追踪时判断直线段中垂线是否通过圆弧中心基于距离约束的圆弧跟踪方法：总是选择到圆心的距离与半径最接近的象素点作为跟踪的下一个点 Arc Recognition

弧识别依据 圆弧上任意两点连线（称为弦）的垂直平分线一定经过圆心圆的几何对称性对图像做水平和垂直扫描，分别统计每个点作为任意两个象素区域边界点的中点的次数对达到统计峰值的点做直线Hough变换，得到一组水平对称轴和垂直对称轴计算水平对称轴和垂直对称轴的交点作为候选圆心对每个候选圆心收集水平、垂直对称轴对称边界点，形成候选圆图像速度较慢，圆弧过短时不易找到三段中垂线共点的弦 Arc Recognition

弧识别存在的问题 圆弧过短时不易检测需要记录大量信息和采用Hough变换而速度较慢初始的圆弧参数有误差，就很可能跟踪不出完整的圆弧不适合工程图中复杂情况：大量的相交、粘连情况经常造成型值点畸变导致圆弧的质量不高 Arc Recognition

弧识别改进 从圆弧上无相交、粘连的部分搜索圆弧的特征段开始，计算出圆弧的初始圆心和半径按照圆弧段方向进行圆形跟踪，避免相交、粘连的干扰在跟踪过程中动态调整圆心和半径，确保完整识别圆弧从图像数据中擦除仅仅属于该圆弧的象素 Arc Recognition

Arc Recognition

圆弧检测方法依据圆弧的“弦的中垂线过圆心”的几何特性，在直线矢量化产生的圆弧的候选段集合中搜索圆弧段来获取圆弧的特征圆弧检测方法依据圆弧的“弦的中垂线过圆心”的几何特性，在直线矢量化产生的圆弧的候选段集合中搜索圆弧段来获取圆弧的特征圆弧段由三个相邻的中垂线共点的候选段组成。圆弧段的搜索从圆弧的候选段集合取出一个候选段，然后在该段附近搜索两个最近的与其在象素级连通、并且中垂线共点的候选段，组成一个圆弧段 Arc Recognition

圆弧跟踪 根据圆弧段（参数为圆心O、起点P1、终点P2和线宽W）可以计算出圆弧的初始圆心和半径可采用Bresenham的圆扫描转换算法生成圆形的跟踪路径先以P2为起点沿着P1P2的圆形方向延伸圆弧，在延伸中动态调整初始参数与背景位图的偏差。如果延伸成功，就得到一段延长了的圆弧（圆心O和终点P2被更新）。如果延伸的结果不是圆，再以P1为起点沿着P2P1的圆形方向延伸，得到完整的圆弧

Document Analysis and Graphics Recognition : CG and CAD Developments Dr. Tong Lu