直观的想象,每个物体都有6个自由度,代表位置的 x, y, z 坐标,以及绕 x, y, z 轴旋转的角度,很容易想到,可以用3个数来描述一个物体的方向。欧拉角正是一个用3 个数来描述方向的描述方式, 一般用 所谓 " heading-pitch-bank" 约定,在左手坐标系中, ”heading“ 是绕 y 轴旋转的量,向右为正,"pitch" 是绕 x 轴旋转,向下为正,"bank" 是绕 z 轴旋转,从原点向 z 正看,逆时针方向为正。 要注意的是,这些旋转的 x, y, z 轴是物体坐标系的轴。
欧拉角只用3个数来描述方向,并且3个数都是角度,因此对我们来说相对容易使用,表达方式也最为简洁(没有多余数据),任意3个数都是合法的,因此 计算误差积累对欧拉角的影响不大。
欧拉角表达同一个方向时,可以有无穷多个表示(绕 x 半圈和 1圈半是一样的),为了唯一表示,一般我们限定 heading 和 bank 在 +180度到 -180 度之间, pitch 限制在 +90度到-90度之间。即使这样规定,方向的表示还不是唯一的,还有一个所谓的”万向锁“ 问题, 先 heading 45 度再 pitch 90度 和先 pitch 90度再 bank 45度是一样的,因此规定发生万向锁问题时(pitch 90),由 heading 来完成旋转,bank 为 0。
欧拉角计算插值时比较麻烦,如果不使用限制 欧拉角 ,使用简单插值计算就会碰到插值时旋转过多的问题,720 和 45度 只差45度,但是简单的插值运算会导致转圈,即使使用限制欧拉角, -170度到 170 度之间只相差 20度,但简单的插值会旋转 160度,必须把两国角度差限制在 180度以内。最后,当遭遇万向锁时,会碰到更为难办的问题,大多数会导致抖动、路径错误的现象,这是一个底层问题,几乎不可避免。
四元数可以看作 2D中的虚数在3D中的扩展,由 4 个数来表示方向,从而避免了欧拉角的一些问题。一般的表示法是 [ w, v ] 或 [ w, (x, y, z) ] (注意:这里的x,y,z 不是位置的x,y,z 坐标,粗体表示向量)。欧拉证明了任何旋转都可以通过对一个轴的单一旋转来表示,因此方向可以分解为一个角度(θ)+轴(n),但是,这个角度和轴不是简单的放在四元数中,他们的关系如下:
q = [ cos(θ/2) , sin(θ/2)n ] = [ cos(θ/2), ( sin(θ/2)x, sin(θ/2)y, sin(θ/2)z ) ]
四元数和虚数一样,可以进行+, 求逆、点乘,叉乘等操作,对于四元数进行插值(slerp)运算就相当简单,也不会碰到万向锁的问题。它还能快速连接和角位移求逆,能和矩阵形式快速转换,并且仅用了4个数。
四元数的问题在于,它比欧拉角多用了一个数(占用了更多空间),同时,四元数可能不合法(能通过四元数标志化解决这个问题),难于直接使用。
最后,还可以用 3 * 3 的矩阵来保存方位,他可以立即进行向量的旋转,并且被图形api 直接支持,多个角位移可以连接,求矩阵的逆也简单,但是它占用了太多内存,难于使用,并且可能是病态的。矩阵的缩放、切变或镜像等操作可能导致方向的未定义行为,导致病态矩阵。坏的数据源,比如物理获取设备可能传输错误数据,导致病态矩阵。由于浮点数的计算精度有限,大量的矩阵乘法可能导致矩阵蠕变,最终产生病态矩阵(可以通过矩阵正交化来解决这种蠕变)。
一般的来说,和人交互(比如 3ds 中设计物体时)可以使用欧拉角,保存(特别是大量的方位,比如动画)时可以考虑欧拉角和四元数,平滑转动(线性插值)最好用四元数,要进行多次计算和连接时用矩阵。
参考文献:《3D 数学基础:图形与游戏开发》 (美) Fletcher Dunn, Ian Parberry 著 清华大学出版社
PS: 这本书是3D数学知识的入门级书籍,刚学3D的看看这本书有助于很多概念的理解。