Skip to content

Latest commit

 

History

History
452 lines (349 loc) · 63.7 KB

19 - 视觉感知.md

File metadata and controls

452 lines (349 loc) · 63.7 KB

19 - 视觉感知

计算机图形学的最终目的是产生供人们观看的图像。因此,计算机图形系统的成功取决于它向人类观察者传达相关信息的能力。 物理世界的内在复杂性和显示设备的局限性使得它不可能呈现给观看者在观看自然环境时出现的相同的光模式。当计算机图形系统的目标是物理真实感时,我们所能期望的最好结果是系统在感知上是有效的:显示的图像应该“看起来”像预期的那样。 对于诸如技术插图(技术路线图、机械分解结构之类的)之类的应用,通常希望在视觉上突出相关信息,并且感知有效性成为明确的要求。

艺术家和插图师根据经验开发了广泛的工具和技术,以有效地传达视觉信息。提高计算机图形学感知有效性的一种方法是在我们的自动化系统中使用这些方法。 第二种方法通过在计算机图形学系统设计中使用感知有效性作为优化标准,直接建立在人类视觉系统的知识之上。 这两种方法并不完全不同。事实上,在 Leonardo da Vinci 的笔记本中发现了其中一个最早的视觉感知系统。

19.1 视觉科学

视觉通常被认为是人类中最强大的感官。视觉产生的关于世界的有用信息比听力、触摸、气味或味道更有用。这是光物理的直接结果。 照明无处不在,尤其是在白天,然而在夜间也有光源,例如,于月光、星光和人工光源。表面反射了很大一部分入射照明(以特定于材料的方式反射),并且取决于表面的形状。光(大部分)在空气中直线传播的事实允许视觉从远处的位置获取信息。

视觉的研究有着悠久而丰富的历史。我们对于眼科学所知的知识可以追溯到 1600 年代哲学家和物理学家的工作。 从 1800 年代中期开始,知觉心理学家探索视觉现象学并提出视觉可能的工作模型,这些科学家的工作爆炸式增长。 1900s 中叶我们看到了现代神经科学的开始,它调查了单个神经元的精细工作以及大脑和神经系统的大规模架构组织。神经科学研究的很大一部分集中在视觉上。 最近,计算机科学通过提供精确描述视觉计算的工具以及允许对计算机视觉程序进行实证检查,从而为我们更好的理解视觉感知助力。 视觉科学涉及知觉心理学、神经科学和计算分析的视觉感知的多学科研究。

视觉科学将视觉的目的视为从光成像图像的花纹上产生关于物体、位置以及事件的信息。心理学家使用远端刺激一词来指代观察之下的物理世界,用近端刺激指代在视网膜上形成的图像。 使用这个术语,视觉的功能是在给定近端刺激的情况下生成对于远端刺激的描述。当产生准确反映现实世界的描述时,称视觉感知使具有真实性的。 在实践中,孤立地考虑对象、位置和事件的这些描述是没有意义的。相反,视觉在它所服务的运动和认知功能的背景下才更好地理解。

19.2 视觉敏感度

视觉系统根据入射照明的特性创建对环境的描述。因此,了解人类视觉系统可以实际检测到哪些入射照明的特性是很重要的。 关于人类视觉系统的一个重要观察是,它主要是对光的模式敏感,而不是对光能量的绝对大小敏感。眼睛不像光度计那样工作。相反,视觉系统在视网膜的成像上检测空间、时间和光谱的模式,这些信息构成了所有视觉感知的基础。

视觉系统对光照随时间和空间变化的敏感性具有明显的生态效用。能够准确感知环境的变化对我们的生存至关重要。测量光能变化而不是能量的绝对大小在工程上也是有意义的,因为它可以更容易地在大范围的光强范围内检测光的模式。 对于计算机图形学来说,视觉以这种方式运作是一件好事。在物理上,显示设备投射光线的能力受到自然场景典型的功率和动态范围的限制。如果图形显示需要产生与相应的物理世界相同的光模式,那么图形显示设备将无法那样工作。幸运的是,所需要的只是显示器能够产生与现实世界相似的空间和时间变化模式。

19.2.1 亮度和对比度

在明亮的光线下,人类视觉系统能够区分由高对比度平行亮条和暗条组成的光栅,精细到 50-60 周期/度(在这种情况下,一个“周期”由一对相邻的亮条和暗条组成)。相比之下,目前最好的液晶电脑显示器,在正常的观看距离下,可以显示精细到约 20 周期/度的图案。 在明亮的光线下,人类视觉系统在边缘处可检测到的最小对比度差约为该边缘平均亮度的 1%。 在大多数 8 位显示器中,由于从灰度级到实际显示亮度的映射性质,单个灰度级的差异通常在至少一部分显示器强度范围内是明显的。 描述视觉系统检测精细花纹(视觉灵敏度)和亮度变化的能力,比摄像机和类似的图像采集器要更加复杂。人类视觉的对比度和敏锐度是相互作用的。 在上图中,图案的比例从左到右递减,而对比度从上到下递增。如果你在一个正常的观看距离看这个图,就会很清楚,一个图案可见的最低对比度是图案空间频率的函数。

从世界上某一表面点到达人眼的光强 L 与照射该表面点的光强 I 以及被观察点处表面的反射率 R 之间存在线性关系: $$L=\alpha I\cdot R$$ 其中,alpha 取决于表面几何形状、入射照明图案和观察方向之间的关系。虽然眼睛只能直接测量 L,但人眼在估计 R 值这方面要比 L 要好得多。 要看到这一点,请在明亮的直射光下查看图 19.3。用你的手遮住其中一个图案,让另一个图案直接照亮。虽然两种图案反射的光会有很大的不同,但两个中心正方形的表观亮度似乎几乎相同。 术语“亮度”通常用来描述表面的外观亮度,与其实际亮度不同。在许多情况下,亮度在巨大照明比变化下是不变的,这种现象称为亮度恒定。 人类视觉系统实现亮度恒定的机制还不是很清楚。如图 19.2 所示,视觉系统对缓慢变化的光线模式相对不敏感,这可能有助于忽略缓慢变化的照明的影响。外观亮度受周围区域亮度的影响(图 19.4)。 当区域被不同地照亮时,这可以帮助亮度恒定。虽然这种同时的对比效果通常被描述为对我们认知的光照亮度的修改,该物体的附近区域存在富有对比的照明,但是这种现象实际上比我们想象中更加复杂。

Simultaneous Contrast:同时对比,几个刺激物同时作用于同一感受器产生的对比现象。

虽然视觉系统在很大程度上忽略了缓慢变化的亮度模式,但它对亮度不连续的线条组成的边缘极其敏感。图像的边缘通常对应于表面边界或环境中的其他重要的图像特征。 视觉系统还可以检测运动、立体视差、纹理和其他几个方面的局部图像差异。 然而,视觉系统检测色彩中的空间不连续(当没有这些其他属性之一的差异时)的能力非常有限。 对边缘的感知似乎与对形式的感知相互作用。虽然边缘给视觉系统提供了识别形状所需的信息,但如果产生的边缘形成了更完整的形状,则缓慢变化的亮度会显示为锐边(图 19.8)。 图 19.9 显示了主观轮廓,这是这种效果的一种极端形式,在这种情况下,即使实际图像中没有这样的轮廓,也能看到一个闭合的轮廓。 最后,视觉系统对边缘的敏感性似乎也是光感知机制的一部分。注意到,图 19.9 中主观轮廓包围的区域比页面周围的区域要亮一些。 图 19.10 显示了边缘和亮度之间的一种不同的交互作用。在这种情况下,边缘处的特定亮度分布对边缘任一侧的表面的外观亮度都具有显著的影响。

如上所述,如果差异至少为平均亮度的 1%,人们可以检测到两个相邻区域之间亮度的差异。这是韦伯定律的一个实例,他指出:在正好可以注意到的差异(jnd)的刺激与刺激的大小之间存在一个常数比例: $$\frac{\triangle I}{I}=k_1$$ 其中 I 是刺激的大小,ΔI 是正好可以注意到的差异(jnd)的大小,k1 是与特定刺激相关的常数。 Weber 定律提出于 1846 年,并且仍然是许多感知效应的有用表征。 Fechner 定律,在 1860 中提出,是韦伯定律的推广,它允许描述任何感官体验的强度,而不仅仅是 jnd: $$S=k_2,\log{I}$$ 其中 S 是感官体验的感知强度,I 是相应刺激的物理幅度,k2 是特定于刺激的缩放常数。

现在的做法是使用幂函数(Stevens 定律)对刺激的感知和实际强度之间的关联进行建模: $$S=k_3,I^b$$ 其中 S 和 I 和之前一样,k3 是另一个缩放常数,b 是特定于刺激的指数。对于大量涉及视觉的感知量,b < 1。 在其他地方描述的 CIE L∗a∗b∗ 色彩空间,使用修改的 Stevens 定律来表征亮度值之间的感知差异。注意到,在表征刺激的感知强度的前两个表达式以及 b 小于 1 的 Stevens 定律中,当刺激的平均幅度较小时,刺激的变化产生的感知效应要大于当刺激的平均幅度较大时相同的物理变化产生的感知效应。

上面描述的“定律”并不是对感知如何运作的物理约束。相反,它们是关于感知系统如何对特定的物理刺激作出反应的概括。 在知觉心理学领域,对物理刺激与其知觉效应之间关系的定量研究被称为心理物理学。虽然心理物理定律是由经验得出的观察结果,而非对其机理的解释。但如此多的感知效应可以通过简单的幂函数很好地建模,这一事实令人震惊,并可能为所涉及的机制提供见解。

19.2.2 色彩

1666 年,牛顿用三角棱镜证明了白色的阳光可以分解成一系列颜色,这些颜色可以重新组合,产生白色的光。 我们现在知道光能是光子的集合,每个光子都有一个特定的波长。光谱分布是光在每个波长上平均能量的量度。 对于自然照明,表面反射光的光谱分布根据表面材料的不同而变化很大。因此,这种光谱分布的特征可以为环境中表面的性质提供视觉信息。 大多数人在看世界时都有一种普遍的色彩感。颜色感知取决于光的频率分布,人类的可见光谱波长从约 370 nm 到约 730 nm。 1801 年,人们首次系统地研究了人类的视觉系统从光谱分布中获得色彩感的原理,150 年来一直存在极大的争议。问题是,视觉系统对光谱分布模式的反应与亮度分布模式的反应非常不同。

即使考虑到亮度恒定等现象,明显不同的空间分布几乎总是看起来明显不同。更重要的是,考虑到视觉系统的目的是根据近端刺激产生对远端刺激的描述,感知到的亮度模式至少近似地对应于环境中表面的亮度模式。(???)

对颜色的感知并非如此。许多不同的光谱分布可以产生出任何特定色彩的感知。相应地,“表面是 xx 颜色的”,这样只提供了非常少的关于光谱(从表面发射的光)的直接信息。 例如,由波长为 700 纳米和 540 纳米的光组合组成的光谱分布,在适当选择的相对强度下,看起来与 580 纳米的单一波长的光无法区分。(在感知上难以区分的不同光谱组成的颜色被称为条件等色)

Metamers:条件等色、异谱同色。

如果我们看到“黄色”,我们无法知道它是由单色光构成的,还是由多种混色光的光谱叠加形成。因此,在视觉的语境中,颜色一词指的是一种纯粹的感知性质,而非一种物理属性。 在人的视网膜上有两类感光细胞。视锥细胞(Cones)参与颜色感知,而视杆细胞(rods)对可见光范围内的光能量敏感,而不提供有关颜色的信息。 视锥细胞有三种类型,每一种细胞都有不同的光谱灵敏度。 s 锥细胞对可见光谱蓝色范围内的短波有反应。m 锥细胞对可见光谱的中间(绿色)区域的波长作出反应。l 锥对覆盖可见光谱中绿色和红色部分的较长的波长作出反应。

虽然通常将三种视锥细胞描述为红色、绿色和蓝色,然而它既不是正确的术语,也不能准确反映上图中的视锥细胞灵敏度。 l -锥细胞和 m -锥细胞是广泛调谐的,这意味着它们对广泛的频率范围做出反应。三种锥体类型的灵敏度曲线之间也存在大量重叠。 综上所述,这两个性质意味着不可能根据三种锥型的响应值来重建原始光谱分布的近似。这与视网膜(和数码相机)的空间采样相反,在那里,感受器在空间灵敏度上分布得很狭窄,以便能够在局部对比度中检测到精细的细节。

人类视网膜中只有三种对颜色敏感的光感受器,这一事实大大简化了在计算机显示器和其他图形显示器上显示颜色的任务。计算机显示器将颜色显示为三种固定颜色分布的加权组合。 在计算机图形学中,颜色通常由红-绿-蓝(RGB)三重表示,表示显示特定颜色所需的红、绿和蓝三原色的强度。三种基色足以显示大多数可感知的颜色,因为三种适当选择的颜色的适当加权组合可以产生这些可感知颜色的条件等色。

RGB 颜色表示至少有两个重要的问题: 首先,不同的显示器具有不同的红、绿、蓝三原色光谱分布(例如 P3 空间和 RGB 空间)。因此,感知上正确的色彩再现涉及到为每个显示器重新映射 RGB 值。当然,这只有在原始 RGB 值满足某些定义良好的标准时才有可能,而通常情况并非如此。 第二个问题是,RGB 值没有以一种与主观感知相对应的方式定义特定的颜色。当我们看到“黄色”时,我们并没有感觉到它是由等量的红光和绿光组成的。相反,它看起来像一种单一的颜色,具有额外的属性,这些属性包括亮度和颜色的“数量”多少。将颜色表示为 s - 视锥、m - 视锥和 l - 视锥的输出也没有帮助,因为我们对这些属性的现象学意义并不比我们对 RGB 显示属性的现象学意义更重要(???)。

有两种不同的方法来描绘颜色,以更接近地反映人类感知的方式。各种 CIE 色彩空间的目标正是“感知上的一致”,以便两种颜色的表示值的差异与感知到的颜色差异成正比。事实证明,这是一个难以实现的目标,多年来对 CIE 模型进行了多次修改。 此外,虽然 CIE 色彩空间的一个维度对应于感知亮度,但指定色度的其他两个维度没有直观的意义(X 和 Z)。

以一种更自然的方式来描述颜色的第二种方法来源于经验法则:观察到有三种不同的、独立的特性主导着主观的色彩感觉。

  1. 亮度(Lightness),即表面的外观亮度(Brightness)。
  2. 饱和度指的是一种颜色的纯度或鲜艳度。颜色的范围可以从完全不饱和的灰色到部分饱和的粉彩再到完全饱和的“纯”色。
  3. 第三个属性——色相,与“颜色”一词的非正式含义最为接近,其特征与可见光谱中的颜色相似,范围从深紫色到深红色。

上图显示了色调-饱和度-明度(HSV)色彩空间的图。由于亮度(Lightness)和亮度(Brightness)之间的关系既复杂又不容易理解,所以 HSV 色彩空间几乎总是使用亮度(Brightness)而非亮度(Lightness)。 然而,与光谱中的波长不同,色相通常以一种反映可见光谱的极端实际上在外观上相似的事实的方式表示。(我的理解是:色相是一个环,从红色出发最后回到红色,这里的极端情况指色相 0.0 和色相 1.0 实际上是同一个颜色) 在特定颜色值的 RGB 和 HSV 表示之间存在简单的转换。因此,虽然 HSV 色彩空间是由视觉感知驱动的,但它并不比 RGB 表示包含更多的信息。

描述颜色的色调-饱和度-明度(HSV)方法基于单点的光谱分布,因此只能近似地对光在空间上分布的光谱分布的感知响应(???)。 色彩感知受制于与亮度相似的恒常性和同时对比度效应。这两者都不能在 RGB 表示中捕获,因此不能在 HSV 表示中捕获。 举一个颜色恒常性的例子,看一张白纸在室内白炽灯下和室外阳光直射下。在这两种情况下,纸张看起来都是“白色的”,尽管白炽灯有明显的黄色色调,因此纸张反射的光也会有黄色的色调,而太阳光的光谱则均匀得多。

CIE 色彩空间或 HSV 编码都没有捕捉到的另一个色彩感知的方面是,当我们观察可见光的连续光谱时或在自然发生的彩虹中,我们会看到少量不同的颜色。 对大多数人来说,可见光谱似乎分为四到六种不同的颜色:红、黄、绿、蓝,还有可能是浅蓝色和紫色。考虑到非光谱颜色,英语中常用的基本颜色术语只有 11 个:红、绿、蓝、黄、黑、白、灰、橙、紫、棕和粉。 将光谱分布的内在连续空间划分为相对较小的组与定义良好的语言术语相关的感知类别似乎是感知的基本属性,而不仅仅是文化产物。然而,这一过程的确切性质尚不清楚。

19.2.3 动态范围

自然光照的强度变化超过 6 个数量级。人类的视觉系统能够在整个亮度范围内工作。然而,在任何一个时间点,视觉系统只能在一个小得多的范围内检测到光强的变化。当视觉系统暴露在平均亮度随时间变化的环境中时,可分辨亮度的范围也相应变化。 如果我们从一个明亮的室外区域快速移动到一个非常黑暗的房间,这种效果最为明显。起初,我们能看到的很少。然而,过了一会儿,房间里的细节开始变得清晰起来。 对黑暗的适应涉及眼睛的一系列生理变化。明显的暗适应需要几分钟,完全的暗适应需要 40 分钟左右。如果我们回到明亮的光线下,不仅视力困难,而且眼睛会感到疼痛。 在再次能够看清楚之前,需要对光线进行适应。明亮环境的适应比黑暗环境的适应要快得多,通常需要不到一分钟。

人视网膜上的两类光感受器对不同范围的亮度敏感。视锥细胞在大多数我们认为正常的照明条件下提供视觉信息,从明亮的阳光到昏暗的室内照明。杆状细胞只在非常低的光照水平下有效。 光视觉涉及亮光,此时只有视锥细胞能有效工作。暗视觉涉及暗光,此时只有杆状细胞能有效工作。在一定强度范围内,视锥细胞和视杆细胞对光的变化都很敏感,这被称为中视视觉,有时也称为暮光视觉。

19.2.4 视场与灵敏度

在人类的视觉系统中,每只眼睛的视野范围大约是水平 160 度垂直 135 度。双眼观看时,两只眼睛的视野只有部分重叠。这导致更宽的整体视野(大约 200 度水平 135 度垂直),重叠的区域是大约 120 度水平 135 度垂直。 在正常或矫正到正常视力的情况下,我们通常有一种主观体验,即无论我们往哪里看,都能看到相对精细的细节。 然而,这是一种错觉。每只眼睛的视野中只有一小部分是对细节敏感的。 为了看到这一点,拿着一张纸,上面覆盖着正常大小的文字,如图 19.16 所示。用不拿纸的手遮住一只眼睛。当你盯着你的拇指而不动你的眼睛时,注意你拇指上方的文字是可读的,而两侧的文字则不是(不可读)。 高敏度视力被限制在一个视角略大于你拇指的范围(在距离眼睛一臂长的距离)。我们通常不会注意到这一点,因为眼睛通常会频繁移动,从而可以以高分辨率观察视野的不同区域。随着时间的推移,视觉系统将这些信息整合在一起,产生以高分辨率看到整个视野的主观体验。

人类视觉皮层没有足够的带宽来处理整个视网膜上密集的图像强度采样所产生的信息。视网膜中可变密度光感受器的组合和快速眼球运动指向感兴趣区域的机制提供了一种同时优化灵敏度和视野的方法。 其他动物已经进化出了不同的平衡敏锐度和视野的方式,这些方式并不依赖于快速的眼球运动。有些动物只有很高的视力,但视野很窄。另一些动物有宽广的视野,但看到细节的能力有限。

将环境中感兴趣的区域对焦到视网膜中央凹上的眼球运动称为扫视。扫视发生得非常快。从触发刺激到完成眼球运动的时间为 150-200 毫秒(计划加执行)。大部分时间都花在视觉系统的计划扫视运动上。实际的运动平均需要 20 毫秒左右(执行)。 在扫视过程中,眼睛移动得非常快,最大旋转速度通常超过 500 度/秒。在扫视之间,眼睛指向感兴趣的区域(注视),需要 300 毫秒左右的时间来获取详细的视觉信息。 在广阔的视野范围内,多重注视被整合起来形成对精细细节的整体主观感觉的机制尚难以理解。 上图显示了人视网膜中视锥细胞和视杆细胞的不同堆积密度。在正常光线下负责视觉的视锥细胞在视网膜的中央凹处堆积得最密。 当眼睛盯着环境中的某一点时,该点的图像就会落在中央凹上。中央凹锥体的高填充密度会导致成像光的高采样频率,因此能得到更加详细的信息。中央凹视野约 1.7 度,这和距离你眼睛一臂长位置上拇指的宽度相当。

虽然上图的版本出现在大多数关于人类视觉感知的介绍性书籍中,但它只提供了关于视觉敏锐度的神经生理限制的部分解释。在信息沿着视神经传送到视觉皮层之前,单个视杆细胞和视锥细胞的输出以不同的方式通过眼睛内的神经互连汇集在一起。这种池化会过滤由入射照明模式提供的信号,对可检测的光照模式有重要影响。 特别是,离中央凹越远,计算平均亮度的区域就越大。因此,空间敏锐度在远离中央凹的地方急剧下降。 大多数显示杆状体和锥状体堆积密度的图表明了视网膜盲点的位置,在那里,神经束携带眼睛处的光照信息通过视网膜到达大脑,这里对光照并不敏感。 总的来说,盲点对现实世界感知的唯一实际影响是它在介绍性感知文本中用作错觉,因为正常的眼球运动弥补了暂时的信息丢失。(???)

在中央凹中心,杆状细胞的填充密度降为零。远离中央凹,杆状体密度先增加后减少。如此,当照明非常低时,不会产生中央凹视觉。 在远离任何城市灯光的无月之夜,观察夜空可以证明中央凹缺乏视杆细胞。有些星星非常暗淡,如果你在天空中向稍微偏离星星的位置看去,就能看到它们,但如果你直视它们,它们则会消失。 这是因为当你直视时,星星的光照只会落在视网膜上的视锥细胞上,而这些视锥细胞对光的敏感度不够,无法检测到这些特征。稍微偏离地看去会使星星的光照落在对光敏感的视杆细胞上。 适应暗光视觉的敏锐度也受到限制,一部分原因是视网膜上的视杆细胞密度较低,另一部分原因是视网膜上的视杆细胞聚集了更多的信号,以增加视觉信息传回大脑的光敏感性。

19.2.5 运动

当我们阅读有关视觉感知的文章,看着印刷页面上的静态图形时,很容易忘记运动在我们的视觉体验中是无处不在的。 由于眼睛和身体的运动以及世界上物体的运动,落在视网膜上的光的模式不断变化。

在射入视网膜的特定光模式中,运动可探测的属性是速度、方向、大小和对比度的复杂函数。这个问题更加复杂,因为在运动感知中出现同时对比效应的方式与我们在亮度感知中观察到的类似。 在极端情况下,一个单一的小图案在一个由明显差异的,均匀的背景上移动,可感知的运动需要运动的速度对应于 0.2 度-0.3 度/秒的视角。同样的图案在有纹理的背景上的运动只需要大约十分之一的速度就被检测到。

有了这种对视网膜运动的敏感性,再加上眼球扫视的频率和速度,令人惊讶的是,当我们观察世界时,它通常看起来是稳定而静止的。 视觉系统通过三种方式实现这一点。

  1. 在扫视过程中,对比敏感度降低,降低了眼睛位置快速变化所产生的视觉效果。
  2. 在扫视之间,各种复杂的机制调节眼睛的位置,以补偿头部和身体的运动以及世界上感兴趣的物体的运动。
  3. 最后,视觉系统利用有关眼睛位置的信息,将多次注视产生的高分辨率图像的小块拼接成一个稳定的整体。

如果没有可见的端点或角,直线和边界的运动在视觉上是模糊的,这种现象称为孔径问题。孔径问题的出现是因为平行于线或边的运动分量没有产生任何视觉变化。 现实世界的几何结构非常复杂,所以在实践中很少会遇到这样的问题,除了像理发杆(理发店门口那个转圈圈的灯)这样的刻意制造的错觉。 然而,在一些计算机图形渲染中发现的简化几何和纹理,有可能在感知运动中引入不准确性。

如果没有一种重要的感知现象,实时的计算机图形、电影和视频是不可能实现的:不连续的运动,其中一系列静态图像在时间的离散间隔上可见,然后在空间上以离散的间隔移动,这样可以让不连续的运动和连续的运动难以区分。 这种效果被称为表观运动,来强调我们在不连续运动上观察到的连续运动只是一种错觉。 上图说明了连续运动和表观运动之间的区别,连续运动是真实世界的典型,而表观运动几乎由所有动态图像显示设备产生。(B)所示的运动与(A)所示运动对应部分的平均运动相当,由高时空频率调制,该高时空频率考虑了静止模式和不连续移动到新位置的模式之间的交替。 连续运动的明显感觉是因为视觉系统对运动的高频成分不敏感。

只要连续图像之间的位置变化不太大,当单张图像出现的速度高于约 10 赫兹时(10 帧),就会产生令人信服的表观运动感。然而,对于大多数图像显示设备来说,该速率不足以产生令人满意的连续运动感。 几乎所有这样的设备在切换到下一幅图像时都会产生亮度变化。在光线充足的条件下,人类的视觉系统对这种亮度的变化非常敏感,最高可达 80 赫兹。在较弱的光线下,可探测性高达约 40 赫兹。当交替亮度的频率足够高时,会发生 Ficker 融合(闪光融合),并且这种不连续感会消失。

对于闪烁的光源,当闪烁频率增大到某一数值的时候,就能感觉到它是连续光源,这种现象叫闪光融合,这时的频率叫闪光融合频率,也叫闪光融合值(简称闪频值)。

为了产生引人注目的视觉运动,图像显示器因此必须满足两个单独的约束:

  1. 图像必须以>10 赫兹的速率更新;
  2. 在更新图像的过程中引入的任何闪烁必须以大于 60-80 赫兹的速率出现。

一种解决方案是要求图像更新率大于或等于 60-80 赫兹。然而,在许多情况下,这根本是不可能的。对于计算机图形显示,帧计算时间通常基本上大于 12-15 毫秒。 传输带宽和旧的监视器技术的限制将正常的广播电视限制在每秒 25-30 个图像(某些高清电视格式的运行速度为 60 图像/秒)。由于曝光时间的要求以及移动胶片的物理移速不足,电影以 24 帧/秒的速度更新图像。

不同的显示技术以不同的方式解决这个问题。计算机显示器以 70-80 赫兹刷新所显示的图像,而不管图像内容改变的频率有多高。因为需要两个值来表征这样的显示器,所以术语 frame rate 是意义模糊的——用来表示图像被重显示的间隔叫“刷新率”,用来表示新显示器上图像生成的间隔的叫做“帧更新率”。 标准的非 HDTV 广播电视使用 60 赫兹(NTSC,在北美和其他一些地方使用)或 50 赫兹(PAL,在世界其他大部分地区使用)的刷新率。帧更新率是刷新率的一半。并非将每个新图像显示两次,而是通过交替地显示当前图像地偶数行和奇数行。 通过使用机械快门来避免电影中的闪烁,在移动到下一帧之前,电影的每一帧闪烁三次,产生 72 Hz 的刷新率,同时保持 24 Hz 的帧更新率。

使用外观运动来模拟连续运动偶尔会产生我们不想要的伪影。 其中最著名的是马车车轮错觉,一个旋转车轮的辐条似乎在相反的方向上旋转。马车轮错觉是时间混叠的一个例子。辐条或旋转轮盘上的其他空间周期性的图案,从固定位置向轮盘的中心看去时,会产生一个时间上的周期性信号。 固定的帧更新速率对这种临时周期信号进行及时采样。如果被采样模式的时间频率太高,欠采样会导致混叠伪影,而在显示图像时出现较低的时间频率。 在某些情况下,这种时间频率的扭曲会导致空间扭曲,使车轮看起来向后移动。由于时间采样率较低,电影比视频更容易出现马车轮错觉。

当视觉运动图像从一种媒体转换到另一种媒体时,也会出现问题。 当 24 赫兹的电影被转换成视频时,不仅非隔行格式需要转换为隔行格式,而且没有直接的方法从每秒 24 帧转换到每秒 50 或 60 帧。一些高端显示设备能够部分补偿胶片转换为视频时引入的伪影。

19.3 空间视觉

视觉系统的关键功能之一是对可见环境的几何属性的估计,因为这些是确定物体、位置和事件信息的核心。 视觉有时被描述为逆向光学,强调视觉系统的一个功能是逆向成像过程,以确定在视网膜上产生特定图案的世界中的几何形状、材质和照明。 视觉系统的核心问题是,在视网膜上成像的光模式中,可见环境的特性是令人混淆的。亮度是照度和反射率的函数,由于光传输的复杂性,它可以依赖于大空间区域的环境特性。投影环境位置的图像位置最多只能用于将该位置约束到半线(half-line)上(???)。 因此,要想唯一地确定产生特定光成像模式的世界的本质是不可能的

确定表面布局——环境中可见表面的位置和方向——被认为是人类视觉的关键一步。大多数关于视觉系统如何从接收到的光模式中提取表面布局信息的讨论,将问题划分为一组视觉线索,每个线索描述一个特定的视觉模式,该视觉模式可用于推断表面布局的属性。 由于仅凭视觉很难准确而明确地确定表面布局,因此推断表面布局的过程通常需要额外的非视觉信息。这可能来自于对现实世界中可能发生的事情的其他感觉或假设。

视觉线索通常分为四类。 眼动信号包括眼睛的位置和焦点信息。 视差线索包括从两只眼睛观察同一表面点提取的信息,而不仅仅是从单只眼睛的位置获取的信息。 运动线索提供了关于世界的信息,这些信息要么来自观察者的运动,要么来自物体的运动。 图像线索来自于将 3D 表面形状投射到落在视网膜上的 2D 光模式上的过程。

19.3.1 参考框架与尺度测量

对可见表面上点的位置和方向的描述必须在特定参考框架(参考坐标系)中完成,该框架指定了用于表示几何信息的坐标系统的原点、方向和缩放。人类视觉系统使用多个参考框架,一部分原因是不同的视觉线索提供不同种类的信息,另一部分原因是信息被放置的目的不同(???)。 以自我为中心的表现是根据观看者的身体来定义的。它们可以细分为固定在眼睛、头部或身体上的坐标系统。 非自我中心的表征,也称为外中心表征,是关于观察者外部事物的定义。非自我中心参照系可以是环境中某些物体配置的局部参照系,也可以根据独特的位置、重力或地理属性来全局定义。

从观看者到环境中特定可见位置的距离,以自我为中心的坐标系表征来表达,在视觉感知文献中通常被称为深度。 表面的方向可以用以自我为中心的坐标或非自我为中心的坐标来表示。在以自我为中心的方向表示中,术语“倾斜(slant)”是指指向该点的视线与该点的法线表面之间的夹角,而术语“倾斜(tilt)”是指表面法线在垂直于视线的平面上投影的方向。 距离和方位可以用各种测量尺度表示。 绝对描述使用不属于感测信息本身的标准来指定。这些标准可以是文化定义的标准(例如,米),或者与观看者的身体相关的标准(例如,眼睛的高度,肩膀的宽度)。 相对描述将一个感知到的几何性质与另一个联系起来(例如,点 a 的距离是点 b 的两倍)。 序数描述是相对度量的一种特殊情况,在这种情况下,使用关系的符号(而非大小)来表征。

19.3.2 眼动线索

关于深度的眼动信息直接来自眼睛的肌肉控制。 眼动信息有两种不同的类型:

  1. Accommodation 是眼睛在特定距离上聚焦的过程。
  2. Convergence (通常称为朝向 vergence )是两只眼睛在三维空间中指向同一点的过程。

Accommodation 和 Convergence 都有可能提供关于深度的绝对信息。

从生理学上讲,人眼的聚焦是通过扭曲眼球前部晶状体的形状来实现的。视觉系统可以从这种变形的程度推断深度。Accommodation 对距离的提示相对较弱,超过 2 米后就失效了。大多数人在超过 45 岁以后,在一定距离内聚焦会越来越困难。对他们来说,Accommodation 变得更加无效。 那些不熟悉视觉感知细节的人有时会混淆深度估计与 Accommodation,这些信息是由眼睛有限景深相关的模糊产生的。Accommodation 深度提示提供了到它聚焦的那部分视野的距离信息。它不依赖于视野中其他部分失焦的程度,除了视觉系统用来调整焦点的模糊。景深似乎确实提供了一定程度的有序深度信息,尽管这种影响只得到有限的研究。 如果两只眼睛盯着空间中的同一点,可以使用三角函数来确定观看者到被观看位置的距离。在最简单的情况下,兴趣点就在观看者的正前方, $$z=\frac{ipd / 2}{\tan{\theta}}$$ 其中 z 是到世界上某一点的距离,ipd 是表示眼睛之间距离(瞳间距离),θ 是表示眼睛相对于前方方向的辐角。 对于较小的 θ,如人眼的几何形状,当 θ 以弧度表示时,tan θ≈θ。因此,汇聚角的变化量通过以下关系表示深度的变化量: $$\triangle\theta\approx \frac{ipd}{2}\cdot \frac{1}{\triangle z}$$ 当 θ 趋向 0 时,Δz 越来越大。这意味着随着整体深度的增加,立体视觉对深度的变化不那么敏感。 事实上,Convergence 只提供了几米范围内的绝对深度信息。除此之外,距离的变化会产生汇聚角的变化,这些变化太小而无用。

在人的视觉系统中,Accommodation 和 Convergence 之间存在着一种相互作用:Accommodation 用于帮助确定合适的 Convergence 角度,而 Convergence 用于帮助设置聚焦距离。 通常情况下,这有助于视觉系统在设置 Accommodation 或 Convergence 时的不确定性。然而,立体计算机显示打破了现实世界中发生的对焦和 Convergence 之间的关系,导致了许多视觉感知困难。

19.3.3 视差线索

当眼睛盯着空间中的一个点时,眼睛的会聚角只是视觉系统能够从双目立体图像中确定深度的方法之一。第二种机制涉及两只眼睛视网膜图像的比较,而不需要关于眼睛指向何处的信息。 举个简单的例子。伸直手臂,拇指向上。盯着你的拇指,然后闭上一只眼睛。现在,同时睁开闭着的眼睛,闭上睁开的眼睛。你的拇指看起来或多或少是静止的,而你的拇指后面更远的表面看起来会从一边移动到另一边。左眼和右眼之间的视网膜位置的变化称为视差 双眼视差线索要求视觉系统能够将两张视网膜上的一组在世界空间中相同的点匹配起来。,这个过程被称为对应问题(correspondence problem)。这是一个相对复杂的过程,我们对它的研究还不够。 一旦建立了对应关系,世界中特定点投射到左右视网膜上的相对位置,能够指出这些点比注视点近还是远。当对应点相对于中央凹向外移位时,交叉视差就会发生,表明此时表面点比固定点更近。当对应点相对于中央凹向内移位时,就会出现不相交视差,这表明面点比固定点更远。 双眼视差是一个相对深度线索,但是,当通过 Convergence 缩放时,它也可以提供绝对深度的信息。$z=\frac{ipd / 2}{\tan{\theta}}$同样适用于双眼视差,也适用于双眼收敛。与 Convergence 一样,双眼视差对深度变化的敏感性随深度的增加而降低。

19.3.4 运动线索

眼睛和可见物体表面之间的相对运动将会使这些物体表面在视网膜上的图像发生变化。眼睛和表面点之间的三维相对运动产生表面点在视网膜上投影的二维运动。这种视网膜运动被称为光流(Optical Flow)。光流是几种深度线索的基础。此外,光流可以用来确定关于一个人在世界中如何移动以及是否即将发生碰撞的信息。 如果一个人移动到一边,同时继续盯着某个表面点,那么光流提供的深度信息类似于立体视差。这被称为运动视差。 对于投射到视网膜注视点附近的其他表面点,零光流表示它的深度与注视点相当;流向与头部方向相反的平移表示距离较近的点(上图(b)中光流与运动方向相同的是较远的点,相反的则是较近的点),相当于交叉视差(crossed disparity);与头部平动方向相同的水流表示更远的点,相当于未交叉的视差(uncrossed disparity)。 运动视差是相对深度的有力提示。原则上,如果视觉系统能够获得有关头部运动速度的信息,运动视差可以提供绝对深度信息。然而在实际操作中,运动视差充其量只是绝对深度的微弱提示。

除了由于运动视差而产生的以自我为中心的深度信息外,视觉运动还可以提供有关物体相对于观看者运动的三维形状的信息。在视觉感知的文献中,被称为动态深度效应(kinetic depth effect)。在计算机视觉中,它被称为“从运动中读取结构”(structure-from-motion)。 运动深度效应假定物体运动的一个分量是深度旋转,这意味着物体围绕一个垂直于视线的轴旋转。 光流还可以提供有关表面边界的形状和位置的信息。光流空间中的不连续几乎总是对应于深度上的不连续,或者是由独立运动的物体引起的。对光流大小的简单比较不足以确定深度变化的符号,除非观察者在一个原本静止的世界中移动,这样的特殊情况。然而,即使当存在独立移动的物体时,跨越表面边界深度变化的符号通常也可以通过其他方法来确定。 运动常常使得较远物体的表面边界的比例改变得更多。表面纹理的出现(增加)或消失(删除)是因为较近的遮挡物逐渐暴露或覆盖较远物体的一部分。 对表面边界两侧纹理的比较也可以用来推断有序深度,即使在没有增加或删除纹理的情况下也是如此。 光流的不连续性和表面纹理的增加/删除被称为动态遮挡提示,是关于环境空间结构的另一个强大的视觉信息来源。

观察者相对于世界空间中的点移动速度不能仅由视觉运动来确定。尽管有这一限制,即使在无法确定速度的情况下,也可以使用视觉信息来确定到达某个点所需的时间。 当速度恒定时,接触时间(通常称为碰撞时间)由视网膜上实体的大小除以实体在视网膜上图像大小的变化率得出。 在生物视觉文献中,这是通常称为 τ 函数。如果 time-to-collision 的估计基于某个实体,并且到这个实体的距离信息是可用的,那么 time-to-collision 可以被用来估计速度。

19.3.5 图片线索

即使在没有双目立体线索或运动线索的情况下,图像也可以包含有关世界空间结构的许多信息。 这种图像深度线索有三类。其中最著名的是线性透视法。还有许多遮挡线索,即使在没有透视的情况下也能提供有关顺序深度的信息。最后,包括着色、阴影和内反射在内的照明线索,以及空中透视也提供了关于空间布局的视觉信息。 线性透视这个术语通常用来指图像的属性,包括图像中物体的大小按距离缩放,平行线的收敛,地平面延伸到一条可见的水平线,以及到地平面上物体的距离与这些物体相对于图像中地平线位置的距离之间的关系。 更正式地说,线性透视线索是那些利用透视投影的事实的视觉线索,即世界空间中的点被投影到的图像位置按 z 的倒数进行缩放,其中 z 是环境中的点到视平面的投影距离。 这种关系的直接结果是,较远的点被投射到更靠近图像中心的点(平行线的收敛),并且世界中点的图像之间的间距随着世界点的远离而减小(图像中的物体大小按距离缩放)。世界上无限平面的图像在有限视界处结束,这是因为当 z 趋向无穷时,缩放比例趋向于 0。

除了 19.4.2 节中描述的与尺寸相关的效果外,大多数涉及线性透视的图像深度线索都依赖于感兴趣的物体与地平面的接触。 实际上,这些线索估计的不是到物体的距离,而是到地平面上接触点的距离。假设观察者和物体都在水平地平面上,那么在视图中更低的物体,在世界空间中距离观察者更近。 如果视点 h 在地面上方,且地平线和地面上的某个关注点之间的偏角为$\theta$,则该点与观测者所站的点之间的距离为$d=h,\cot{\theta}$。 偏角提供了任意固定视点的相对深度信息,并且当可以按眼睛高度(H)进行缩放时,可以提供绝对深度。

虽然人类的视觉系统几乎肯定会使用倾斜角作为深度线索,但用来获取所需信息的确切机制尚不清楚。$\theta$可以从相对于重力方向或地平线方向来获得。 有一些证据表明,这两者都用于人类的视觉。眼睛高度 h 可以基于姿势,通过看脚下的地面来视觉确定,也可以通过经验学习并假定是恒定的。虽然许多研究人员已经调查了这个问题,然而这些值是否被确定/如何被确定,仍然没有准确的回答。

阴影提供有关三维空间布局的各种类型的信息。 附着阴影(Attached Shadows)表示对象与另一个表面接触,该表面通常由地平面组成。分离阴影(Detached Shadows)表示对象靠近某个表面,但不与该表面接触。 阴影可以通过使对象出现在地平面上阴影位置的深度来充当间接的深度提示。当利用这一线索时,视觉系统似乎会假设光线直接来自上方。 视觉提供了有关表面方向和距离的信息。用倾斜度来表示视觉确定的表面方向是很方便的,倾斜度(Tilt)定义为表面法线在视网膜图像中投影的方向,倾斜(Slant)定义为表面法线和视线方向之间的夹角。

可见的表面地平线可以用来确定(实际上是无限的)表面相对于观察者的方向。倾斜(Slant)也可以重新覆盖,因为从眼点到地平线的视线定义了与曲面平行的平面。 在许多情况下,要么是表面地平线不可见,要么是表面足够小,以至于它的远边与实际地平线不对应。在这种情况下,仍然可以使用可见的纹理来估计方向。(???) 在感知的语境中,术语纹理指的是由表面上重复子图案组成的视觉模式。子模式及其分布可以是固定的和规则的,就像棋盘一样,或者在统计意义上是一致的,比如草地。 当从倾斜(oblique)的角度查看带纹理的表面时,纹理的投影相对于表面上实际的图案会发生扭曲。两种截然不同的扭曲都受到倾斜量的影响。 纹理元素的位置和大小受上述线性透视效果的影响。会产生纹理渐变,因为元素大小和间距都随着距离的增加而减小(A)。在倾斜(oblique)视角下,纹理元素个体和元素分布的图像都被压缩(B)。这就产生了倾斜(tilt)方向上的压缩。 例如,一个斜视的圆呈现为椭圆,长轴与短轴之比等于斜度的余弦。注意透视收缩本身不是线性透视的结果(???),尽管在实践中线性透视和透视收缩都提供了关于倾斜(Slant)的信息。

foreshortening:透视收缩

为了使纹理梯度成为表面倾斜(Slant)的线索,纹理元素的平均大小间距必须在纹理表面上保持恒定。如果图像中大小和间距的空间可变性不是完全由投影过程造成的,那么试图反转投影效果只会产生关于表面方向的错误推断。 同样,如果纹理元素的形状不是各向同性的,那么透视收缩线索就会失败,毕竟不对称的纹理元素图像形状也会在与倾斜(oblique)观看无关的情况下出现。 这些都是为了使空间视觉线索有效而经常需要的假设的例子。这些假设在一定程度上是合理的,因为它们反映了世界上普遍发生的特性。 着色也提供了关于表面形状的信息。表面上观察点的亮度取决于表面反射率表面相对于定向光源和观察者的方向。 当物体的相对位置、观察方向和照明方向保持固定时,在一个恒定反射率表面上亮度的变化表明物体表面的方向发生了变化。 “Shape-from-Shading”从这些观测到的表面亮度的变化来恢复表面形状。几乎不可能从阴影中恢复表面的实际方向,尽管阴影通常可以与其他线索相结合,以提供表面形状的有效线索。 对于具有精细几何可变性的表面,着色可以提供引人注目的三维外观,即使是在二维表面上渲染的图像(下图)。 有许多图像线索可以提供关于深度的有序信息,而没有直接提示实际距离。在线条图中,不同类型的连接点提供了可以生成绘图的 3D 几何结构的约束(图 19.32)。 感知上最有效的连接线索是 T 形连接(T-junctions),这是一个强有力的提示,它表明处于 T 枝干反面一侧的几何体至少遮挡了一个更遥远的几何体。T 形连接通常会产生一种模态完成感(大脑对于残缺形状的自动补全),能想象出一个被遮挡的表面在遮挡物背后的形状。 大气效应引起的视觉变化可以提供有关深度的信息,特别是在长距离的户外。达芬奇是第一位描述空中透视(也称为大气透视)这个概念的人,在大气透视中,散射降低了场景远处部分的对比度,并导致它们比较近的部分看起来更蓝。大气透视主要是一种相对深度线索,尽管有人猜测它也可能影响绝对距离的感知。 虽然许多人认为,由于大气影响,距离更远的物体看起来更模糊,但大气散射实际上几乎不会造成模糊。

19.4 物体、位置和事件

虽然当前的视觉科学家们普遍认为视觉的目的是提取有关物体、位置和事件的信息,但对于提取什么信息、如何提取信息或如何使用信息的关键特征几乎没有共识。关于物体识别的本质以及物体识别与感知的其他方面之间的潜在相互作用,存在着重要的分歧。我们对位置的大部分了解都涉及低级空间视觉,而不是复杂物体的空间关系或者在复杂的环境中导航所需的视觉处理过程之类的问题。 我们知道人们在世界中移动时如何感知自己的速度和方向,但对实际事件感知的理解有限。视觉注意(Visual Attention)包括对物体、地点和事件的感知。虽然有很多关于相对简单和控制良好的刺激的数据,但我们对视觉注意(Visual Attention)如何服务于高级感知目标知之甚少。

19.4.1 对象识别

物体识别涉及将图像分离成与不同物理实体相对应的组成部分,并确定这些实体的身份。 图 19.35 中,我们不难识别出左边的图像是某种车辆,尽管我们以前从未见过车辆的这种特殊视图,而且我们大多数人通常也不会将车辆与这种环境联系起来。 右边的图像不太容易识别,除非将页面倒过来。这表明人类物体识别存在方向上的偏好。 物体识别被认为包括两个显然不同的步骤。 第一步将视野组织成可能与物体和表面相对应的组。分组过程非常强大(图 19.36),尽管在分组的过程中我们很少/几乎没有意识到那些得出分组结果所需的低级图像特征。分组是基于图像中图元结构的接近性,亮度、颜色、形状和方向上的相似性、共同运动以及各种更复杂关系的相互作用来完成的。

对象识别的第二步是将分组解释为已识别的对象。 计算分析表明,有多种截然不同的方式可以识别物体。感知数据中尚不清楚其中的哪一部分实际上用于人类视觉。 物体识别要求视觉系统对每一类物体的描述足以将每一类物体与所有其他物体区分开来。物体识别的理论在描述每个类别信息的本质和用于将这些描述与实际匹配起来的机制有所不同。 有三种可能的一般类型的描述。模板(Template)根据每个类中对象的原型视图来表示对象类。 结构描述根据在对象视图中很容易检测到的每个类的独特特征来表示对象类,以及关于特征之间几何关系的信息。 结构描述可以用 2D 或 3D 表示。对于对象类型的 2D 模型,必须为对象的每个明显不同的潜在视图提供单独的描述。对于 3D 模型,可能有两种不同形式的匹配策略。其中一种方法是,在使用任何可用的空间线索进行分类之前先确定所查看对象的三维结构,然后将视图的 3D 描述与已知对象的 3D 原型相匹配。另一种可能性是,某些机制允许确定视图下尚未确定的对象的方向。此方向信息用于旋转和投影潜在的 3D 描述,以使得对象和它相应的描述在 2D 下相匹配。 最后,描述对象类属性的最后一个选项涉及不变特征,它根据更通用的几何属性描述对象类,特别是那些在不同视图下都很少变化的特征。

19.4.2 大小和距离

在缺乏关于深度更明确信息的情况下,投射到视网膜较大区域的物体比投射到视网膜较小区域的物体看起来更近,这种效应被称为相对尺寸。一个更强大的线索称为熟悉尺寸(Familiar Size),它可以对已知大小的可识别物体提供绝对距离信息。 熟悉尺寸作为深度线索的强大之处可以在图 19.38 的幻象中看到,图中熟悉尺寸与地平面、基于透视的深度线索矛盾。熟悉尺寸是尺寸-距离关系的一部分,与物体的物理尺寸、投射到视网膜上的光学尺寸以及物体与眼睛的距离,这些参数相关。 当物体位于平地面(Flat-Ground Plane)上时,会有更多可用的信息用来推导深度,特别是当地平线可见或可以从其他透视信息中推导出时。与地面接触点的倾斜角度是相对深度的提示,按眼睛高度缩放时可以提供物体的绝对距离。 地平线比(物体的总可见高度和物体出现在地平线以下部分之比)可用于确定物体的实际尺寸,即使与物体的距离未知。地平线比的理论依据:对于平坦的地面平面,看向地平线的视线与物体在距离地面恰好一个眼睛高度的位置相交 人类视觉系统足以确定大多数观察物体的绝对尺寸。我们对尺寸的感知由实际的物理大小决定,并且我们几乎没有意识到相对应的视网膜大小的物体。这类似于前面讨论过的亮度恒定,在亮度恒定中,我们的感知是由世界的推断属性主导的,而非由视网膜上光感受器实际感知的低级特征决定。 举一个尺寸恒定的简单例子。把你的两只手放在你面前,一只手与你保持一臂的距离,另一只手与你保持一半的距离(图 19.41(a))。你的两只手看起来几乎一样大,尽管它们的视网膜大小相差两倍。 如果较近的手部分地遮住了较远的手,尤其是当你闭上一只眼睛时,这种效果就会小得多(图 19.41(b))。 视觉系统还表现出形状恒定,其中几何结构的感知更接近实际物体的几何形状,而不是由于透视导致的视网膜扭曲图像。

19.4.3 事件

事件感知的大多数知识超出了本章的范围,因为它们涉及复杂的非视觉认知过程。然而,有三种类型的事件感知主要是视觉主导的,并且也显然与计算机图形学相关。 视觉能够提供关于一个人如何在世界上移动的信息,世界上独立移动的客观存在,以及由于观察者的运动或由于物体向观察者移动而可能发生碰撞的信息。

视觉可以用来确定相对于环境的旋转和平移方向。 最简单的例子是朝着垂直于视线的平面运动(向前移动)。假设有充足的表面纹理来恢复光流信息,光流场将形成如(A)图所示的对称模式。光流场的延伸焦点在视场中的位置会有一条与对应于平移方向的关联视线。 虽然光流可以用来直观地确定运动方向,但它不包含足够的信息来确定速度。要理解这一点,请考虑这样一种情况:假设世界被放大了一倍,观看者的移动速度也增加了一倍。由于距离增加一倍而引起的光流场值的减小恰好被由于速度增加一倍而引起的光流场值的增大所补偿,从而产生相同的流场。

光流向量的汇集点称为延伸焦点(FOE, Focus of expansion)

(B)图显示了观察者围绕垂直轴旋转所产生的光流场。与相对于平动的情况不同,光流提供了足够的信息来确定旋转轴和旋转(角)速度。 然而实际的问题是,围绕垂直于视线的轴的纯旋转运动产生的光流场与同时垂直于视线和旋转轴方向的纯平移运动产生的光流场非常相似,这使得很难在视觉上区分这两种截然不同的运动类型(图 19.43(c))。 下图显示了通过更真实的环境运动产生的光流图。 如果观察者是完全静止的,那么对运动物体的视觉检测是容易的,因为运动的物体对应于视场中非零的光流场值。 当观察者移动时,情况就复杂得多,因为视野将被非零光流值所主导,而非零流大部分或全部是由于观察者与静态环境之间的相对运动产生的。在这种情况下,视觉系统必须对那些与观察者相对于静态环境移动不一致的光流模式十分敏感。 第 19.3.4 节描述了即使在运动速度未知的情况下,如何使用视觉来确定与环境中某一点将要接触的时间。假设观察者沿直线匀速运动,且世界上没有独立运动的物体,则在 τ 关系所指示的时刻,观察者将会与焦点延申对应的视线方向上的任何表面发生碰撞。 独立运动的物体会使确定碰撞是否会发生这个问题变得复杂。水手们使用一种检测潜在碰撞的方法,这种方法也适用于人类的视觉系统:对于非加速直线运动,碰撞将发生在视觉上正在膨胀但在以自我为中心的参照系中视觉上保持静止的物体上。(???)

还有一种更复杂的事件感知形式值得在这里讨论,因为它在交互式计算机图形学中非常重要。人们对与人体运动特别敏感。当步行者关节上唯一可见的特征是灯光时(???),我们就可以识别出他的运动。 这种移动的光显示器(Moving Light Displays)(???)通常甚至足以识别步行者的性别和行走者可能携带的重物的重量等属性。 在计算机图形渲染中,观众甚至能注意到动画中人物微小的违和感,特别是当他们打算模仿人类的动作时。 “视觉注意”(Visual Attention)一词涵盖了一系列现象,从我们眼睛指向的地方到包含我们在复杂场景中注意到的以及我们如何解释这些事务的认知效应。 上图提供了一个注意力如何影响视觉的例子。在左边的两个面板中,一个图案在形状或颜色上与其他图案不同,这个图案很容易被注意到。而在右边的面板中,一种形状和颜色都不同的图案很难找到。 原因在于,视觉系统可以并行搜索由单个属性区分的物品,但在寻找同时存在的两个显著特征所指示的物品时,需要更多认知性、顺序性的搜索。基于图形的人机界面应该(但通常不应该这么做!)在设计时理解如何利用人们的视觉注意力过程,以便快速有效地传达重要信息。

19.5 图片感知

到目前为止,本章已经讨论了当人眼直接对世界成像时所产生的视觉感知。当然,当我们看到计算机图形的结果时,我们看到的是渲染的图像,而非真实的世界。这具有重要的感知暗示。原则上,有可能生成与现实世界没有区别的计算机图形,至少对于没有物体或观察者运动的单目视图而言。

想象一下透过一扇玻璃窗看外面的世界。现在,考虑为窗口上的每个点上色,使其与最初在该点看到的世界的颜色完全匹配。通过这种操作,到达眼睛的光线没有改变,这意味着无论是通过彩色玻璃观看还是通过窗户观看真实世界,感知应该是相同的。 计算机图形学的目标可以被认为是产生这样的彩色窗口,而不需要真的拥有一个等效的用来观察世界的窗口。

计算机图形学和其他视觉艺术的问题是,我们无法通过在平面上着色来匹配现实世界的视图。在现实世界中,光的亮度和动态范围是不可能用任何当前的显示技术来重现的。渲染图像的分辨率也往往低于人类视觉所能感知到的最精细的细节。 与现实世界相比,图片中的亮度和颜色稳定性要明显得多,这可能是因为视觉系统试图根据观看环境中的环境照明来补偿亮度和照明颜色的可变性,而不是根据与渲染图像相关的照明来补偿。这就是为什么照片中色彩的真实感取决于拍摄照片时呈现的光源性质所平衡的胶片色彩,以及为什么视频中的真实感色彩需要白平衡步骤。 虽然人们对分辨率、亮度和动态范围的限制如何影响简单图案的可探测性了解甚多,但对这些显示特性如何影响空间视觉或物体识别几乎一无所知。

我们对这个问题的其他方面有更好的理解,心理学家称之为对图像空间的感知。观看图像和观看真实世界之间的一个区别是:适应性、双目立体、运动视差和其他深度线索可能表明,所看到的表面与它想要表现的世界中的距离有很大不同。 在这种情况下看到的深度往往介于图像中图形线索所指示的深度和到图像本身的距离之间。在看照片或电脑显示器时,这通常会导致尺寸比预期的小。另一方面,在大屏幕影院看电影比在电视上看同样的电影产生更引人注目的空间感,即使观看电视的视角是一样的,但是电影屏幕更远。

使用透视投影渲染的计算机图形具有视点(指定为模型空间中的位置和方向)和视锥台(指定水平和垂直视场以及视变换)。如果没有从正确的位置查看渲染的图像,则图像边界的视角度将不会与创建图像时使用的截锥体相匹配。图像内的所有视角度也将被扭曲,导致基于线性透视的所有图像深度和方向线索的扭曲。 在实际操作中,当观看者离照片或显示器表面太近或太远时,这种效果经常发生。如果观察者离得太近,深度的透视线索将被压缩,而表面倾斜(Slant)的线索将表明表面更接近于垂直于视线的情况。如果观看者离照片或屏幕太远,情况就会相反(表面平行于视线)。如果视线没有穿过观看区域的中心,情况就更复杂了。

人类的视觉系统能够部分补偿由于在错误的位置观看图像而产生的视角扭曲,这就是为什么我们能够坐在电影院的不同座位上,并体验到所描绘的空间的相似感。 当控制观看位置特别重要时,可以使用观察筒(Viewing Tube)。它们是适当大小的筒,安装在一个相对于显示器的固定位置,观众通过这个筒看到显示器。观察筒将观测点限制在(但愿)正确的位置。 观察筒在消除图像中的图形线索和实际显示表面之间的深度信息冲突上十分有效。它们消除了立体视差和运动视差(这些视差通常由显示器表面引起,而非渲染图像)。 如果它们的直径足够小,它们还可以通过隐藏显示设备的相框或边缘来减少对显示表面位置的其他线索(让人们察觉不到显示平面)。新奇的视觉沉浸式显示设备,如头戴式显示器(hmd),在试图隐藏显示表面位置的视觉线索的同时,添加了与所渲染世界的几何形状一致的双目立体和运动视差。