视觉背后的数学

科学家们早就知道 大脑使用捷径从感官中收集信息。 例如,在视觉上,我们不需要看到一个物体的所有细微差别来识别它。 一个简单的,摇摇晃晃的线条画的苹果或房子是立即识别的对象描绘。 1980年,已故的麻省理工学院人工智能实验室教授大卫·马尔(David Marr)试图用一种被称为边缘检测的视觉处理理论来解释这种现象。

马克今敏 in a Tan Suit in front of a chalk board

马克今敏

Marr假设人类通过寻找边缘来确定图像的信息,也就是将一个物体与另一个相邻物体区分开来的对比线。 因此,线条图代表了大脑已经在做的事情——用边缘将离散的物体分开,勾勒出世界的轮廓。

意识到这一捷径使科学家能够更好地理解视觉,并使计算机科学家能够通过边缘检测算法模拟视觉感知。 马尔最敏锐的观察之一是,不同的边缘呈现在不同的视觉长度尺度上。 例如,从空中俯瞰一座城市,不同的建筑会出现在不同的高度,从社区的大致轮廓到单个庭院的精细边界。 或者考虑当你把图像模糊到不同程度时,不同的边缘会出现的方式。 马尔提出了一个猜想:通过定位不同模糊程度的图像边缘——即所谓的多尺度边缘——就有可能从数学上对这些所谓的边缘信息进行逆向工程,并重建完整的原始视觉图像。

这一原理在计算机科学中广泛应用于面部识别和图像处理等实际应用,并为人类和其他动物的视觉神经科学澳门威尼斯人注册网站研究提供了信息。 但马尔的猜想也为数学家们提出了一个基本问题:他的方法具有实际意义,但他的猜想能否在数学上得到证明?

波士顿大学数学和统计学教授马克今敏表示:“人们把这当作一个数学猜想来抓住。” 几位学者试图解决这个问题,一组数学家甚至成功地证明了这个猜想对于无限大小的图像是假的,但没有人能够证明或证伪这个猜想对于具有有限边界的实数图像。

今敏的澳门威尼斯人注册网站研究涉及统计学和应用数学,因此他长期以来一直对与现实世界中的问题相关的问题感兴趣,特别是在教学时。 几年前,当他在一堂课上讨论Marr的问题时,Kon突然想到使用一种被称为多极展开的数学工具来解决Marr的问题,多极展开在物理学中用于描述电磁场和引力场。 他把调查这个想法的任务交给了本·艾伦,当时是波士顿大学的博士生,现在是哈佛大学的博士后。 Together they produced a mathematical proof of Marr’s conjecture for finite images, which is under review at 数学年鉴, three decades after the conjecture was first put forth.

他们的工作也证明了生物学、计算机科学和纯数学之间可以进行蓬勃发展和富有成效的对话。 Kon说,在证明像多尺度边缘分析这样的实用视觉工具背后的猜想时,“我们已经给蛋糕上了锦上添花。”