在多尺度中看世界

在多尺度中看世界 王郑耀　理学院计算数学系 quzhi@BMY

目的 • 通过对具体算法的研究来看，科学家（数学家）是如何进行这方面的研究的

科学与信仰 • “一个观看两个地球人下国际象棋的火星人，能否根据自己的观察来推断出国际象棋的规则？”－－《科学的终结》 • 能不能通过通过分析Windows2000的行为而知道其代码？这是一个人工的系统，符合人的思维习惯。 • 给你一块电表，你尽可以测量计算机中的电压电流，你能知道计算机在干什么吗？ • 这些简单的例子是非常困难的，但是人们相信：科学可以帮助人们理解复杂的世界。

科学与信仰 • “科学是什么？是一种知识，是一种工具。我想这种工具也带有信仰的成分在里边。从小学到大学，越来越困惑：因为科学知识中有着太多的假设：而这些假设是基于一种不可言状的东西的：既像直觉，又像信仰；而且信仰的成分似乎更多一些。”－－《为科学而祈祷》 • 科学中的前提：宇宙中存在着规律，在人类诞生前、人类历史上以及人类灭亡后，这些规律都是成立的。 • 这是一种信仰。

数学是科学的工具 • 汉语，是我们和本民族的人交流的语言； • 外语，是我们和其他民族的人交流的语言； • 计算机程序，是我们和机器交流的语言； • 数学，是人类和上帝交流的语言。 • ――西安交大　理学院　陈绥阳

数学就是抽象的生活 • “The meaning of the world is the segmentation between will and fact!” • 　　　　　　　　　　－数学家歌德尔 • 数学就是抽象的生活。 • 数学研究的就是：在变化中不变的东西和规律，就是永恒无限的东西。永恒无限的东西，最值得我们用毕其一生去追求。

人工智能 • 到底什么是人？ • 没有腿是不是人？没有胳膊是不是人？换一个脑袋是不是人？… • 能不能“做”一个人？ • 人类可以模拟出如此复杂的才能吗：“在鸡尾酒晚会上认出自己大学时代的女朋友，并立即想出恰当的说辞，使她为15年前抛弃自己的行为感到追悔莫及”

人对自己的理解 • 哲学上有很多争论，但是对科学家来说，他们不管哲学家说什么，就是努力去做，用事实说话。 • 分解－》分解－》分解 • 仿生学算法 • 仿生结构算法：神经网络 • 仿生过程算法：遗传算法 • 仿生行为算法：模糊逻辑

惊人的假说

惊人的假说 • “你，你的的喜悦、悲伤、记忆和抱负，你的本体感觉和自由意志，实际上都只不过是一大堆神经细胞及相关分子的集体行为。” • 我们不过是一大群神经元而已。 • 灵魂，科学家不需要这个假设。 • 脑研究的最重要的目标就是掌握人类“灵魂”的本质。 • 我们的精神（大脑的行为）可以通过神经细胞（和其他的细胞）及其相关分子的行为加以解释。

惊人的假说 • 还原论：复杂系统可以由他各部分的行为及其相互作用加以解释。突现… • 大脑的突现行为： • 突现行为不能理解为分离部分的组合行为 • 即使整体行为不等同于每一部分的简单叠加，但是这种行为至少可以在原理上可以根据每一部分的本性和行为外加这些部分之间如何相互作用去理解 • 苯（C6H6） • 还有很多系统，我们已经十分了解，他们也是不同层次的复杂系统 • 大脑：组成+相互作用　这些知识我们是可以获得的 • 复杂，所以进展缓慢

惊人的假说 • ２.意识的本质 • 感受特性－红的程度、痛的程度？ • 我们不能解释红的程度，并不意味着你我看到的红色是不同的 • 神经相关物

惊人的假说 • ３.如何解释意志是自由的这种感觉？三个假设 • 人脑的某个部分与制定进一步行动的计划有关，人能意识到这个计划，至少可以直接回忆起来 • 人不能意识到这部分脑所执行的“计算”过程，而只知道它作出的最终“决定”，也就是计划。这些计算过程将依赖于这一部分大脑的结构（进化，经验），也取决于来自脑其他部分的当时输入。 • 执行这个计划或者那个计划的决定，也是“计算”出来的。也有上述的限制。混沌现象（蝴蝶效应），不可预测－》自由？（进化+经验＝》阈值，权值）确实找到了与自由意志有关的脑结构

人的视觉 • 视觉是人类获取知识的最重要来源：80％ • 感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体并判断这些物体之间的关系. • 视觉则是人类最重要的感觉它是人的主要感觉来源。 • 视觉是思维的一种最基本的工具。

视觉也常常欺骗我们

Marr：Vision

视觉的计算理论 • 二十世纪60年代，随着计算机的发展，人们开始研究如何让机器也能看。 • 最开始，人们以为视觉是非常简单的，因为我们每个人都可以毫不费力的识别任何物体。 • 但是，当人们开始具体做视觉系统的时侯，却发现视觉系统不是简单的。

天才　D. Marr • D.Marr　原籍英国， • 剑桥三一学院数学硕士学位； • 博士论文是小脑理论； • 美国麻省理工学院MIT 人工智能实验。 • 视觉计算理论 • 计算机科学 • 心理物理学 • 神经生理学 • 临床神经病学

视觉是一种信息处理过程 • Marr 认为视觉是一种信息处理过程，经过这个过程从图象中发现外部世界中有什么东西和它们在什么地方。 • 大脑看到了某种东西 • 如何表达？ • 研究任务和执行任务的结构！ • 算什么？－－算法 • 如何算？－－实现

最初的研究 • 格式塔学派——整体上认识视觉 • 接近律 • 相似律（运动） • 连续律 • 封闭率

格式塔学派

格式塔学派 • 图像＝背景+图形

心理物理学+电生理物理学 • 心理物理学－表象 • 旋转角<->识别速度 • 电生理物理学 • 测量人体的电压，放大器，神经信号传递

问题（１） • 成果很多，但是对于视觉这个问题来说，还是很难堪。 • 生物学的研究也许可以告诉我们做什么，但是不知道原因。需要一个存储器！为什么？ • 描述行为；解释行为 • 这些是Marr工作当时的背景

问题（２） • 长期的思考后，发现了问题 • 要计算什么？ • 如何计算？计算使用的方法基于什么假设？ • 研究 • 如何表象？形式化系统以及规则。 • 如何利用表象描述某一实体。 • 处理？超时现金收支机（加法）。 • 干什么的？为什么这样做？（表象） • 选择输入表象和输出表象，完成它们之间转换的算法 • 算法的实现

约束条件决定算法 • 现金收支问题的约束条件 • 加零规则：你要是不买东西，你就不需要掏钱；不买什么东西和买了某种东西的总费用和只买这种东西的费用一样； • 交换律：所购买商品的价格输入次序不影响总数 • 结合律：把货物单独分成两堆，各堆单独付款不影响你付出的总钱数； • 相反数：如果你买了一件东西，然后又把他退回去，你的总数应该是0； • 这些约束条件实际上就定义了加法运算，所以加法是超市现金收支的算法

三个层次 • Marr 指出视觉有三个层次 • 第一个层次是信息处理的计算理论在这个层次研究的是对什么信息进行计算和为什么要进行这些计算（十分重要，计算理论） • 第二个层次是算法在这个层次研究的是如何进行所要求的计算也就是要设计特定的算法（心理物理学） • 第三个层次是实现算法的机制或硬件在这个层次上研究完成某一特定算法的计算机构（神经解剖学）

视觉计算理论 • 最初的视觉理论：视觉是检测不变量 • 分析的太深，其实还是信息处理过程 • 十分困难 • 视觉的目的到底是什么？ • 很多动物的例子 • 临床神经病学的例子 • 物体的形状表象与物体的用法、用途不同的另一种表象，存储在不同的地方； • 即使病人在理解物体的用法、用途这个意义上不能认出物体，仅靠视觉能传递物体的形状信息的内部描述。

人类视觉的目的 • 人类视觉告诉我们的是形状、空间及空间位型。 • 人类视觉的目的 • 最重要的是：从图像中建立物体的形状和位置； • 不重要的：颜色。表面的量度，反射

视觉系统的三个表象层次 • ［１］零交叉点、斑点、端点和不连续点、 • 　　　边缘片段，边界… • ［２］在以观察者为中心的坐标系中，把 • 　　　可见表面的朝向、大致深度即它们 • 　　　的不连续轮廓表达 • ［３］再以物体为中心的坐标系中，用含 • 　　　有体积基元（即表示形状所占体积 • 　　　的基元）和面积基元的模块化分层 • 　　　次表象，描述形状和形状的空间组 • 　　　织形式；

模块化 • 视觉信息处理是按照功能模块的形式组织起来的。换言之，在图像中被编码的表面信息是由一些几乎相互独立的处理过程实现解码任务的。 • 　可以只研究某一特定功能算法！！ • 　下面我们来看边缘检测问题，这是我做过一些具体工作的领域。

边缘及边缘检测

灰度图像

边缘图像

东17后

东17后－－边缘图像

车牌号码

意义 • “边缘或许对应着图像中物体（的边界）或许并没有对应着图像中物体（的边界）,但是边缘具有十分令人满意的性质,它能大大地减少所要处理的信息但是又保留了图像中物体的形状信息”．（Poggio，1985） • 简化信息：特定处理的信息冗余 • 人眼通过追踪未知物体的轮廓(轮廓是由一段段的边缘片段组成的)而扫视一个未知的物体； • 经验告诉我们:如果我们能成功地得到图像的边缘,那么图像分析就会大大简化,图像识别就会容易得多； • 很多图像并没有具体的物体,对这些图像的理解取决于它们的纹理性质,而提取这些纹理性质与边缘检测有极其密切的关系

图像

数据

图像是平面上的连续函数； • 离散化：抽样，量化

边缘提取（１） • 曲面上考虑

边缘提取（２） • 行列，概率，局部结构等等 • 1959：Julez, “A Method of Coding TV Signals Based on Edge Detection,” Compression,Video. Television. • 1963：L. G. Roberts最早开始系统研究边缘检测 • 数百种方法，文章不计其数

边缘提取（３） • 很难！肉眼可以看见的边缘就是自动提取不出来！一般的算法没有，对一些问题也没有答案！ • 为什么难？ • 难题很多，关键的一个是 　多尺度

尺度效应（１）

尺度效应（２）

尺度效应（３）

尺度效应 • 在不同的距离下观测同一图像获得的感受是不一样的，远距离看到是图像轮廓,近距离下看到的是更多细节,这就是尺度效应。 • 如果我们从各种距离下观看一棵树上的一株花（距离不断的变大），我们看到东西先后是：…，奔腾的电子流，分子，微粒，花蕊，花朵，整株植物，一片树林，整个森林，地球，…。假如说我们关心的是植物的花朵，那么在这个过程中，花朵只在某些尺度下呈现出来，在更小的尺度或者更大的尺度下，它们就消失了。大尺度上观察场景获得是场景的基本宏观的结构，小尺度上的得到是的细节纹理。 • 如果在以更小的尺度去观察场景，纹理也是有自己的结构的。

图像中边缘特征是多尺度的

在多尺度中看世界

在多尺度中看世界

Presentation Transcript