【RTC图文回顾】视频编码未来简史

　　本文根据RTC2017实时互联网大会，下一代云端音视频技术专场，马思伟老师的演讲，整理得来。

　　马思伟：

　　北京大学信息科学技术学院教授， 2005年博士毕业于中国科学院计算技术研究所。2005年8月至2007年8月在美国南加州大学进行博士后研究，之后到北大工作至今。2013年获国家自然科学基金委优青项目资助，2015年入选中组部第二批青年拔尖人才计划。主要研究方向为视频编码及处理，已发表论文200余篇，已获授权发明专利40多项。担任IEEE Transactions on Circuits and System for Video Technolgoy（TCSVT）、Journal of Visual Communication and Representation（JVCIR）期刊编委（AE）、中国图象图形学学会理事、AVS视频组联合组长等。自2002年起，陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定，曾获国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。

　　首先我们回顾一下视频编码的历史，视频编码起源于广播电视，在很长一段时间里视频编解码的变革主要推动力是来自于广播电视。当然，今天我们看互联网的视频编码是速度越来越快，昨天在ICET2017年世界大会上，ICET的主席还说到以前一个编码是十年更新一版，但是现在从H.265最新进展的来看，可能不到十年。

　　我们看到这个图，大家可能在小的时候见到过，电视上一个圆盘，这是最主要的电视测试信号，这是1951年第一部数字电视和广播。这个起源是脉冲调制编码，相当于一个脉冲一个象素值，比较早的是用固定的比特，用8比特表示图象电视信号编码传输。这是在广播电视领域。

　　到了我们计算机行业，计算机诞生于1946年，但是在计算机上出现图象是到了1957年， Kirsch是第一幅数字图象的创造者，他用他的儿子做了第一幅数字图像。2007年是这一幅图象诞生50周年，现在是60周年了，原来的小baby现在也已经是50、60岁的老头了。今天的数字图象，已经到了4K甚至8K。

　　到了编码，编码的原理是因为视频里面有很多冗余，包括连续两幅图象出现的时域冗余，还有人眼对高频信息不敏感的感知冗余。基于这个原理，现在视频编解码框架从早期261开始，一直到今天266快出来了，框架基本上没有太多变化。

　　在这个框架里面，编码技术可以主要分成三大块。变换编码，刚刚提到通过变换把高频信息、空域、时域的冗余信息去掉。还有预测编码，还有熵编码。这是三大块编码的技术。

　　三大块编码技术，从1950年左右开始。1946年计算机诞生，1948年是相对信息论，50年代初开始了数字化开始视频数字编码时代。在早期由于计算能力限制，基本上是基于象素处理，用统计模型去处理。计算能力增强了之后现在有基于块的处理。原来只能是基于图象去做，后面才可以基于块的处理，基于块的运动估计、运动补偿，像块大小也可以变化，今天我们看到的H.264、265都是这样。

　　再看当下的视频编码技术进展。首先是空间的分辨率，从原来的小图象到标清、到高清、再到超高清。第二，是时间分辨率，从原来的15帧，还有更高的20帧，到120。第三，采样精度，现在的HDR高动态范围电视，至少是10比特了，但是10比特够不够，将来还会发展，也可能到了20比特。第四，视点数和视场范围，这两个是密切相关的。视频传的不是一路视频，可能是两路，可能是多路，这是视点数。视频的范围，看到的角度，越来越宽，这是视场范围。第五，模型数据。模型数据是包括轮廓对象的刻划。深度数据，还包括特征，对图像内容、对象的认识。还有是点云，完全可以把对象重建出来，远景重现就依赖这项技术。

　　模型编码，是标准之外的编码。模型编码这个概念也是比较久了，大概在80年代后期，一直到90年代中期的时候，曾经有一个很大的呼声，模型编码是第二类编码，但是今天为止我们发现二代始终没上台，始终在用原来的二代。模型编码的概念很光，可以把原基于象素的编码都可以涵盖，也是模型，只不过它的模型是基于信号模型。当然我们熟悉的是对象模型，这个概念很新，但是它也没有用起来，也是有很多问题，在这里提到场景的解析，人和场地的解析。

　　更进一步，包括对人，比如人的身体、脸可以建更高精度的模型。所以这对应表格上是在早期过去编码历史也有反应，包括基于人脸模型，甚至人脸哭和笑，只要是做好模型，将来传很少的数据就可以还原。当然最后边的发展最后还提到智能编码，这是综合了信号与视觉的模型，基于学习的视频编码。

　　再看看视频编码的发展趋势。4K越来越流行。我们看到互联网广播，包括最近广东也开会提出下一步要提出4K电视广播技术，我们北京也提出2022年冬奥会是8K的试播。上图可以对比一下，有测试8K，左上角的高清多么小。当然8K视频不只是分辨率的问题，还有配套的技术，包括采样精度、帧率和声音。

　　这是10亿象素的相机拍摄的一张照片，图片一直放大，可以清楚的看到“太和殿”三个字。

　　刚刚说的主要是分辨率的增长。分辨率上去之后，并不是说要传一个更大的视频，对于后端来说，意味着可以提供更多的视频应用形式，比如AR和VR。现在4K做VR的视觉效果还是有问题的，还是需要更高的视频带宽和视频精度去传输。模型编码，对AR也有更大的提升作用。

　　如果看挑战，第一是数据量的压缩，依然比较严峻。8K、4K、HDR这样的视频，原始数据级是60Gbps。

　　第二个挑战是，从压缩到分析。刚刚讲到视频编码的第一个推动作用是广播电视，看到更好的视觉质量。但是到今天为止，世界上好多视频，比如监控，并不是人要去看的，是计算机要去看的。我们没有人去盯监控视频，希望计算机来能够完成分析。目前的压缩是面向存储和传输，降低带宽占用，但是分析的支持相当弱。所以，很多视频分析的研究是在压缩完之后进行。但是，随着现在前期分析识别技术越来越强，很多视频分析开始在视频编码时就进行智能分析、智能编码。

　　最新进展我也快速过一下，一个是大家最关心的JEM266，高通推动新一代的发展，最早是在MPEG会议提出，提出HM—KTA—1.0，到2020年制定新的标准。

　　JEM的性能有很大提升。客观性测试上，编码效率已经提升了30%，复杂度增加了12倍，这对编码实现还是很有压力的。这是刚刚出来的雏形，后端肯定会在复杂度和性能之间的做更多优化做更多技术。

　　最近已经有几家平台基于JEM做了一些尝试，可以看到他们的测试结果。在SDR、HDR、360video三个平台，可以看到基本上原来的码率下一半的时候可以达到同等的要求。这个对8K很有吸引力，

　　从固定精度运动矢量到自适应精度运动矢量，离预测中心比较近是，用高精度，比较远时用低精度，以此来节省运动矢量编码的码率。

　　第二个是关于划分，划分模式太多，大家在选择起来比较头疼。

　　再说一下360，基本上是把投影拼接，拼接完了之后再压缩编码。在这个环节里面最重要的是投影数据，投影数据决定你要压缩什么、丢失什么，对整个VR的体验影响很多。这是很重要的方向。

　　从图象这块我们可以看到全景视频投影，从立方体、八面体、二十面体、球体，JEM里面有十几种投影方式。

　　对于质量评价不一样，当然这种质量评价也是影响你编码工具的设计，这儿有一个WSPSNR的概念因为它是从球面投到平面上去，有些数据丢了，如何计算WSPSNR很难，当然还有很多其他的方式。

　　刚刚讲到JEM的技术。像光场这块原来是聚焦一个图象，现在是把不同方向的内容光线记录下来，一遍是利用相机阵列，或者微透镜成像。光场图像压缩，JPEG比较积极，它是在2017年1月份发布光场图象压缩平台。

　　在这里我们做了初步探索，对光场图象里面有很多问题，每一个小透镜采集的光和图象不一样，中间有很多差异。弄完之后实际上每个滤波就是一个视频，每一个小透镜就是一个小图象，这些差异需要处理。

　　再后来数据采集就是点云采集，把人脸模型变成动画场面。后面我们要把三维场景传输过去，这是下一步场景三维模型建模的技术发展方向。在这块MPE也是比较迅速。

　　在今年4微分发布的CFP，大概10月份确立第一个验证平台，这个是类似于AR、VR可以把动态模型用三维模型传输过去。

　　这是序列编码框架，把编码数据包装到每一个盒子里面，当然对于点云的数据要复杂的多一些。

　　这是对比的效果图，可以看到这是原始数据，一帧点云可能是136MB，我们看到压缩一千倍、一万倍，信息会丢掉不少。

　　下面讨论关于未来，本来简史我们很熟悉，包括人类简史、未来简史，包括赫拉利讲到人类简史说三个革命，一个是认知革命，因为认知革命会制造工具，还有一个是农业革命可以养活更多的人，因为有个更多的人，才有人力去搞科学革命。

　　在视频编码方面，我把认知革命改成“采集革命”。视频采集的深度、点云、以及压缩感知，Nyquist采样定理等对采集有很大影响。采集是编码的源头，采集会影响到编码的框架设计。第二个计算革命，刚刚说农业可以创造更多的粮产，可以养活更多的人。在视频编码领域，能编码，是因为计算能力的支持。计算的初期是基于像素、后来是基于块，现在有更多更复杂的计算。早期是CPU，后来GPU，现在有NPU。这些计算能力很强大，但是视频编码目前还没有利用上这些计算能力。目前正在探索，利用这些计算能力现在在探索基于神经网络的编码，就是想利用这种更高效的计算能力。第三个是科学革命，我认为对于编码来说是认知革命。认识视频里的内容，对内容有所识别。这里面包括简单的视觉特征，高级一点是深度学习，更高级是类脑计算学习。这个过程是支持未来视频编码的方向。

　　这三者相辅相成，采集有新东西了，计算能力要跟上。计算越强会支持采集。同样对于认知也是，计算能力更强也会加强认知。所以这三者是相互支撑的关系。

　　我们下面看采集革命，输出的时候是离散的数字信号，这里面最有名的就是奈奎斯特采样定理，是要过采样。4K、8K那么大，采集到的数据有很多是冗余的，是为了重建。

　　但是这种采集，与人眼的处理差别是很大的。这里引入了压缩感知，采样时强调稀疏采样。

　　这里面一个直接的应用，e是原图象。采样时通过稀疏采样，只采样20%的象素，采集到的是a，再基于稀疏图象的原理还原成e。数据量大大降低。

　　信号采集在时间上和幅度上都是离散的，这就是离散信号。但是离散信号带来的问题就是数据量增加特别多。这都是过采样的方式。

　　但是人脑的采集过程是，一开始是光刺激发生，通过视网膜光电转换和编码，最后通过视网膜认出来。从图像出来到人脑把这个图像认出来，需要经过160ms。肯定今天的采集技术是比人眼采集频率高很多，但是智能分析识别上人要比设备高很多。

　　人脸采集不一样，上面是模拟信号，下面是数据信号，实际上我们人眼被称之为神经脉冲编码，当人看到一个东西如果没有发生变化，是不发放神经脉冲的，相当于不传信号。所以，人脑的功耗是特别的。如果人脑的功耗也很高，就会把大脑烧掉。所以，人是靠很低功耗的计算，来实现分析识别。

　　这是一个很低功耗的图象传感器，区别于传统的CMOS、CCD，做阵列刷新。这是一种事件驱动的采集，对于事件的发生分析，精度要求很高效。

　　计算革命我也有一些思考。一个是我们知道前端计算，对于视频编解码都有专门的芯片，比如早期的C-Cube的处理器，VCD、DVD都使用这种处理器。最近有很强的ARM处理器可以支持4K，Tesla在使用的H.265编解码器，可以处理8K。最新的寒武纪深度学习神经网络处理器。

　　这里我们还是从变换说起，变换是视频编码很重要的模块，最早的变化是基于8x8 DCT。DCT的好处是当信号相关性很强，相关系数达到0.95的时候，DCT就是最优的变换。但是实际信号差别很大，如果图像一旦有边缘，DCT就变得不高效，因为相关性降低了。这是就提出了基于方向的变化，排列一下，分别进行相关性变换。基于这种原理，扩展出了DST，离散正弦变化。到了正弦变化之后还不算完，在H.265发展过程开始通过寻来找KLT最优变换。在H.266提出了更新的做法，原来是离线训练，H.266中使用在线训练，通过前面一两帧的数据在线训练。

　　1987年，神经网络编码提出。最近，Google开始引发关于神经网络编码的革命。这么多年的发展，神经网络编码的原理，基本上还是想通的。

　　上文讲的是神经网络可以进行更多的计算，那么这里给一个例子，进行这么多计算，作用在哪？左边是缩倍率示意图，右边是编码复杂度示意图，我们关注最后面两个，一个是JPEG和Residual（基于神经网络的编码）的GRU和CPU。压缩倍率，JPEG和Residual的都是15倍。在计算复杂度上，如果把JPEG当做是1，那么Residual在GPU上进行的编码复杂度是3200，在CPU上的是26万。