基于Max/Msp/Jitter的实时表情捕捉系统设计

　摘要：随着数字影像技术的发展，传统的逐帧或关键帧技术已经难以满足数字影像的制作需求，动作及表情捕捉技术越来越受到人们的重视。本文从动作捕捉技术的需求出发，阐述了当今主流的动作、表情捕捉技术的发展现状及其特点。着重论述了基于Max/Msp/Jitter的实时表情捕捉系统的设计思路及实现路径，为开发成本较低、捕捉精度可控、环境适应度较高的轻量级表情捕捉系统提供了一个可参考的思路。
　　关键词：Max/Msp/Jitter 表情捕捉低成本人脸表情动画
　　中图分类号：TG156 文献标识码：A 文章编号：1007-9416（2016）01-0000-00
　　1 动作捕捉技术的发展
　　1.1 动作捕捉技术的演进与应用
　　动画影像的发展史就是一部影像技术的发展史。早期的动画要求制作者使用逐帧绘画的方式进行，这一阶段的动画创作工作量巨大，动画制作速度缓慢。计算机技术在动画制作中的应用改变了这一状况，逐帧绘画方式逐渐由计算机关键帧技术所替代，在人物造型制作完成后，制作者只需控制动画角色在关键帧运动姿态，关键帧之间的动态效果由计算机自动生成，这种方式极大地降低了动画制作者的工作量，提高了动画产品的生产效率[1]。然而关键帧技术仍然存在两个缺陷，一是大型动画作品的制作者工作量仍十分巨大；二是基于关键帧的动画在描绘运动姿态上难免生硬之感，尤其在展现情感丰富、变化细微的面部表情时，关键帧动画往往难以胜任。
　　随着动画技术的发展，人们开始尝试使用计算机对动作、表情进行复制从而提高动画真实度，动作捕捉技术出现并逐渐开始应用[2]。动作捕捉又称为表演捕捉，是指通过对表演者真实运动轨迹的捕捉，形成运动数据，将数据映射到动画模型上，从而实现将表演者的行为复制到动画模型上的目的。早期的动作捕捉技术可追述到上世纪70年代的迪斯尼公司，从80年代开始动作捕捉技术逐渐走向应用和商业，出现了多种动作捕捉装置和程序。动作捕捉技术极大地提高了动画角色动作的真实性，近年以《阿凡达》为代表的一系列电影更是将动作捕捉技术拉入大众视野，导演通过一套复杂、精密的动作捕捉系统，对演员动作、表情进行捕捉，制作出真实度极高的动画效果，收到了良好的市场反应[3]。
　　1.2从动作捕捉到表情捕捉
　　随着动作捕捉技术的成熟和广泛应用，人们的视线不仅仅停留在对于肢体动作的捕捉上，对于人类情感表达最为丰富的面部表情也在进行着捕捉的尝试。以Image Metrics表情捕捉系统为例，使用摄像机直接将用户表情采集下来，通过后期算法将表情变化映射到三维模型上，获得了良好的效果。Image Metrics表情捕捉系统在电影《哈利·波特与凤凰社》、《狼人》等影片和《无尽的任务2》、《鬼泣4》等游戏中的动画角色面部表情的创作中都有不错的表现。
　　由于面部表情丰富而且变化细微，很多用于肢体动作捕捉的方法都无法应用于表情捕捉，例如动作捕捉中的机械式、声学式和电磁式运动捕捉方法，都难以应用于表情捕捉领域。如今应用较为广泛的是基于计算机视觉的表情捕捉技术，即通过计算机视觉对表演者的面部表情进行采集和分析，将图像信息数据化，从而完成虚拟动画角色表情的生成和控制[4]。这种表情捕捉技术主要分为两种类型：一是基于面部结构识别的表情捕捉技术，使用摄像机直接采集表演者面部表情，通过算法识别出表演者的面部结构，从而计算表情变化数据并应用于动画角色的表情制作，这种方法往往算法的运算量较大，往往实时互动性不佳。另一种方法是基于识别点（Marker）的表情捕捉技术，即在表演者面部粘贴特殊标志或发光点作为计算机视觉的识别点，使用多台摄像机多角度采集表演者面部表情变化，通过算法定位和追中识别点在空间中的位移情况，从而达到记录表演者面部表情的目的，此类方法也被应用于肢体动作捕捉中。
　　目前基于计算机视觉的表情捕捉系统往往成本昂贵，需要专门的采集场地和大量的硬件设备才能完成，资金预算有限的中小型企业和研究机构往往难以负担。同时针对越来越多的新媒体现场表演的需求，对表情捕捉系统的实时性也提出了更高的要求[5]。因此开发一种成本较低、捕捉精度可控、环境适应度较高的轻量级表情捕捉系统有着巨大的市场需求。
　　2 基于Max/Msp/Jitter的实时表情捕捉系统的设计与实现
　　2.1 Max/MSP/Jitter
　　由Cycling74公司开发的Max/MSP是一种交互式编程语言与开发环境，近年来被广泛应用的在数字音频和多媒体媒体制作领域，经过二十余年的发展经历了多个版本的迭代[6]。Max/MSP/Jitter分为三个部分。Max部分主要完成信息处理功能，包括数值运算、信号处理和提供基本的程序元件，可以说Max是整个软件的基础构架部分；MSP部分主要负责与音频相关的程序实现，包括声音的产生、变形和节奏控制等，这一部分常用于数字音乐创作；Jitter作为插件与Max/MSP结合使用，主要用于视觉信息部分的编程，包括图像的采集、识别与记录等[7]。
　　Max/MSP/Jitter编程方式的另一个优势是实时性，在编程甚至程序运行的过程中用户都可以通过控件来调整和改变输出结果，这一特性极大地降低了编程成本，让用户实现更高效的编程迭代。同时，实时的捕捉与输出特性为现场演示提供了可实现的平台。近年来，国内外大量艺术团体及个人使用Max/MSP/Jitter完成艺术创作和交互实验，可以说Max/MSP/Jitter是新媒体创作中重要的工具之一。
　　2.2系统模型
　　本系统以低成本、精度可控和环境高适应性为着眼点进行设计，在表演者面部粘贴彩色识别点作为捕捉基础，通过Max/MSP/Jitter程序进行识别点的多通道色彩识别与追踪，记录表演者表情变化所产生的识别点位移，将产生的位移数据发送给三维动画软件的表情控制系统，从而实现对表情控制系统参数的控制，达到通过表演者表情变化驱动三维动画角色实时表情变化的目的。系统模型如图1所示。2.3 系统实现
　　表情捕捉系统使用Max/MSP4.7版本作为开发平台，程序部分共分三个主要模块：色彩捕捉算法；位移计算算法；数据输出算法。首先在表演者面部粘贴用于识别的识别点。识别点的要求较低，采用颜色均匀，无高光反射的有颜色差异的材质制作即可。在系统测试中采用了8个关键点作为识别对象，如图2所示，分别粘贴在：额头，左右眉，左右眼睑，左右嘴角及下唇。在具体的系统应用中，可根据三维软件的表情生成器的控制点自定义识别点的位置与数量。
　　系统所需的表情采集环境条件较为宽松，使用柔和的正面散射光照射表演者面部即可，为提高捕捉精度可在表演者身后使用黑色背景。使用与计算机相连接的摄像机或高清网络摄像头，对表演者正面面部表情进行拍摄采集，如图3所示，在Max/MSP界面中通过色板指定每一个识别点的颜色，以便追中记录关键点位移。这种方式有效地提升了表情捕捉系统的适应性，降低了由环境、照明等因素导致的识别点色彩变化的影响。视频接收程序设计有位移倍数放大功能，以便微调由摄像机与表演者相对距离的差异带来位移数据上的差异。同时制作了control patch来实现视频数据的捕捉速率的调节，如图4所示。
　　在色彩捕捉算法成功指定识别点后，进入识别与位移记录阶段。文中选取了8个识别点中一个眼睑识别点为例，如图5所示，通过识别模块识别到识别点在图像中的位置。如图6所示，对识别点的位移情况进行X轴和Y轴的数值记录，通过算法整理成表情生成器可读取的数值类型。
　　如图7所示，将计算得到的识别点位移数据通过数据输出模块输出到三维软件的表情控制器中，从而完成对动画角色表情的控制。测试中使用MAYA作为动画制作软件，采用Snappers Facial RIG作为表情控制器，为配合测试制作了8个控制点的表情Rig来控制三维模型的表情变化。
　　2.4 捕捉效果
　　经过多轮测试我们发现，基于Max/Msp/Jitter的表情捕捉系统的捕捉效果良好，可以较为准确的捕捉表演者的表情变化，并将表情变化转换成数据控制表情生成器，从而完成表演者表情在三维动画软件中的映射。如图8所示，表情捕捉系统对于表演者表情的捕捉和还原程度较高，特别是关键的表情位置，如眼、眉、嘴和颧部肌肉的捕捉效果良好，可以生动地还原表演者的面部表情细节。
　　另一方面，表情捕捉系统对动画角色控制的实时性较好。以8个识别点在实际测试中的表现，表演者表情变化与屏幕上三维模型的表情变化延时不到1秒，实时性交互性表现良好。
　　3 结语
　　经过测试基于Max/Msp/Jitter的表情捕捉系统能够较好的满足表情捕捉的需求，具有低成本、高适应性的特点，特别适用于中小企业和小型研究机构的表情捕捉工作，同时，系统的实时捕捉特性可以较好地满足现场展示、游戏等领域的应用。在测试中我们也发现，系统仍存在一定的局限性，主要是由于对表演者表情的捕捉仍处于二维捕捉阶段，因此表演者头部的晃动和转动会对捕捉精度产生较大影响，仍需进一步完善。动画表情的真实程度越来越受到人们的重视，与此相关的表情捕捉技术也不断涌现。本系统的低成本、快速搭建和实时交互性较好的满足了预算有限的企业和研究者的需求，表情捕捉系统的开发提供了一个可参考的思路。
　　参考文献
　　[1]金刚.三维动画制作新技术及其展望[J].多媒体世界，2000-08.
　　[2]金刚，李德华，周学泳.表演动画中的运动捕捉技术[J].中国图象图形学报，2000（03）：264-267.
　　[3]贾云鹏，周峻.为技术史的艺术史——从《阿凡达》看电影技术的变革[J].北京电影学院学报，2010-03.
　　[4]王翔宇，肖俊，潘红，表演驱动的矢量化二维表情动画[J].计算机辅助设计与图形学学报，2012-05.
　　[5]陆敏捷.中国新媒体艺术之互动音乐发展初探[J].音乐探索，2013-01.
　　[6]侯奕屹.基于MAX/MSP和PHIDGETS的交互设计研究与实践.艺术科技，2014-01.
　　[7]罗丁.浅析电子技术在电子乐器发展中起到的作用[J].音乐时空（理论版），2012-03.
　　收稿日期：2015-12-24
　　*基金项目：内蒙古自治区高等学校科学技术研究项目（项目编号： NJZY12060）
　　作者简介：李昕（1985—），男（满族），内蒙古包头人，内蒙古工业大学管理学院管理科学系教师，硕士研究生学位，韩国东西大学在读博士，韩国BK21项目成员，研究方向：交互设计、自然人机界面设计。