您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

高性能且灵活的iOS视频剪辑与特效开源框架VideoLab

--RingCentral Tech

2022-01-17 14:08:05   作者:文 | 阮景雄(Bear)   来源:CTI论坛   评论:0  点击:


  随着移动互联网时代的到来,短视频成为了最流行的内容载体,而内容的产生离不开视频剪辑与特效创作工具。在LiveVideoStackCon 2021音视频技术大会北京站上,RingCentral Video 移动端架构师——阮景雄(Bear),向大家分享了AVFoundation视频剪辑框架,以及VideoLab框架的设计与实现。
  大家好,我是来自RingCentral铃盛的阮景雄(Bear)。
  今天分享的主题是《高性能且灵活的iOS视频剪辑与特效开源框架VideoLab》。
  今天的分享主要包含以上六个方面,首先会对个人及公司做个简介,其次会介绍VideoLab是什么,第三点会介绍VideoLab的技术选型,第四点介绍AVFoundation框架,接着会介绍VideoLab的设计与实现,最后会介绍VideoLab后续的计划。
  1. 个人及公司简介
  首先,先介绍下个人及公司。
  我2020年7月份入职了RingCentral,职位是移动端架构师。之前的任职工作期间,在视频处理、视频采集、视频播放、直播、社区等几个领域都有涉猎。在RingCentral,负责的业务主要是移动端的架构和iOS平台模块化的演进。
  接着简单介绍下RingCentral铃盛,从右边的图可以看出我们公司主要包含 Message/Video/Phone三块业务。Message是最右下角的IM聊天,Video是视频会议,Phone是最早的打电话功能。我们公司连续七年获得统一通信及服务的领导者,总部位于美国硅谷,铃盛中国成立于 2011,目前在杭州,厦门,香港均有办公室。
  2. VideoLab 是什么?
  接着让我们来聊下VideoLab是什么?
  首先,来看一些关键字:高性能,灵活,视频剪辑,特效,开源框架,iOS,Swift,Metal,AVFoundation。这些关键字组合成一块就解释了VideoLab是什么。
  让我们来看下当前已有的一些Feature,当前已经支持了高性能实时剪辑与导出,高自由度组合视频、图片、音频,支持音频音高设置、音量调节,支持CALayer矢量动画及复杂的文字动画,支持关键帧动画,支持类似于After Effect的预合成,支持转场,支持自定义各类特效。
  让我们来看下一些Gif的示例,第一张图片是多图层的一个示例,组合了三个视频,一张图片。第二张是一个拆字的文字动画。第三张是渐隐渐显加Transform的关键帧动画。第四张是类似AE里预合成的动画。第五张是zoom blur转场的示例。
  3. 框架技术选型
  接着让我们来谈谈框架的技术选型。
  说到框架选型,难免提到一些友商。Videoleap是业界的标杆了,它是国外的一家公司,它的母公司出了非常多剪辑和图片处理的APP。剪映是头条出品,目前在国内做的也是非常好。VN 也是国内的,整体体验还不错。
  在体验完竞品之后,对它们做了个逆向,Videoleap使用的是AVFoundation + OpenGL,剪映主要是AVFoundation + GPUImage,VN 是AVFoundation + CoreImage。再看我之前工作的美拍,它最早是用的AVFoundation + GPUImage,因为那会时间比较早,所以都是直接用AVAssetReader + AVAssetWriter,后面转成了FFmpeg + OpenGL。
  在有了这些备选方案之后,我在想要做一个沉淀,要写一个框架,能不能有一些其他选择?然后我就选了AVFoundation + Metal,Metal是苹果自家的渲染引擎,也是苹果这几年力推的主力之一,每年的WWDC都可以看到苹果关于Metal的topic。
  4. AVFoundation框架
  接着我们来介绍下AVFoundation视频剪辑的框架。
  首先来看下AVFoundation视频剪辑的整体工作流程
  • 第一步,创建一个或多个AVAsset。AVAsset是有时间的,模拟音视频实体的对象。
  • 第二步,创建AVComposition、AVVideoComposition以及 AVAudioMix。其中AVComposition指定了音视频轨道的时间对齐,AVVideoComposition 指定了视频轨道在任何给定时间点的几何变换与混合,AVAudioMix管理音频轨道的混合参数。这三个对象是视频剪辑最主要的三个类,可以把第一个类的作用理解为摆放音视频轨道,第二个类处理视频混合,第三个类处理音频混合。
  • 第三步,我们可以使用这三个对象来创建AVPlayerItem,并从中创建一个AVPlayer来播放编辑效果。
  • 此外,我们也可以使用这三个对象来创建AVAssetExportSession,用来将编辑结果写入文件。
  接下来,让我们看下AVComposition,AVComposition是一个或多个AVCompositionTrack音视频轨道的集合。其中AVCompositionTrack 又可以包含来自多个 AVAsset 的AVAssetTrack。右图的例子,将两个AVAsset中的音视频 AVAssetTrack 组合到AVComposition的音视频AVCompositionTrack中。
 
  设想图中所示的场景,AVComposition包含两个 AVCompositionTrack。我们在T1 时间点需要混合两个 AVCompositionTrack的图像。为了达到这个目的,我们需要使用 AVVideoComposition。
 
  AVVideoComposition可以用来指定渲染大小、渲染缩放以及帧率。图中紫色的部分包含了一组指令,这些指令存储了混合的参数。有了这些混合的参数之后,可以通过自定义的 Compositor 来混合对应的图像帧。
  整体工作流如图所示,接受指令,把原视频帧通过合成器,生成合成后的帧,输出给播放器或者导出器。让我们聚焦到合成器,我们有多个原始帧,需要处理并输出新的一帧。
  流程可分解为:
  • AVAsynchronousVideoCompositionRequest绑定了当前时间的一系列原始帧,以及当前时间所在的 Instruction。
  • 收到startVideoCompositionRequest: 回调,并接收到这个 Request。
  • 根据原始帧及Instruction 相关混合参数,渲染得到合成的帧。
  • 调用finishWithComposedVideoFrame,交付渲染后的帧。
  AVAudioMix在AVComposition的音频轨道上处理音频。包含一组AVAudioMixInputParameters,每个Parameters对应一个音频的 AVCompositionTrack。右边的图片是一个示例,可以看到AVCompositionTrack和AVAudioMixInputParameters是一一对应的。
  5. VideoLab 设计与实现
  前面我们介绍了AVFoundation视频剪辑流程,接下来我们介绍下VideoLab框架的设计与实现。
  
  先简要介绍下AE(Adobe After Effect),AE是特效设计师常用的动态图形和视觉效果软件。AE 通过“层”控制视频、音频及静态图片的合成,每个媒体(视频、音频及静态图片)对象都有自己独立的轨道。
 
    图片是在 AE 中合成两个视频的示例。在左上角Project区域内,有名为Comp1类型为Composition 的一个合成。在 AE 中合成可以认为是一个作品,可以播放导出,也可以设置宽高值、帧率、背景色等参数。在下面Timeline Control 区域内,包含了两个图层,源分别为video1.MOV与video2.MOV。我们可以自由的设置图层参数,如Transform,Audio,也可以在右边区域自由的移动图层,达到灵活的组合效果。针对每个图层,AE里还可以添加一组特效。
  让我们提取一些关键字:Composition合成,Layer图层,Transform变换,Audio音频和Source来源。
  
  基于前面对 AE 的分析,我们可以设计相似的描述方式:
  • RenderComposition,对应AE中的合成。包含一组RenderLayer。此外,RenderComposition还包含BackgroundColor、FrameDuration、RenderSize,分别对应背景色、帧率及渲染大小等剪辑相关参数。
  • RenderLayer,对应AE中的层。包含了Source、TimeRange、Transform、AudioConfiguration、Operations,分别对应素材来源、在时间轴的时间区间、变换(位置、旋转、缩放)、音频配置及特效操作组。
  • RenderLayerGroup,对应 AE 的预合成。这个Group继承自RenderLayer,包含一组RenderLayer。可以理解成先把一组视频或图片处理完,再去做合成。
  KeyframeAnimation,对应 AE 的关键帧动画。包含了KeyPath、Values、KeyTimes、缓动函数数组。
  从上面的图示可以看到,我们可以灵活自由的放置这些区域。
  前面介绍了RenderComposition、RenderLayer、RenderLayerGroup 以及KeyframeAnimation。从前面的AVFoundation 介绍可知,我们需要生成AVPlayerItem与AVAssetExportSession 用于播放与导出。因此,我们需要有一个对象可以解析这几个描述对象,并用AVFoundation 的方法生成AVPlayerItem 与AVAssetExportSession。框架将这个对象命名为VideoLab,可以理解成这是一个实验室。
  可以看到新的流程,把AVComposition/AVVideoComposition/AVAudioMix都封装在了VideoLab内。这样做极大的简化了开发对AVFoundation的认知,现在和AE比较相似,可以非常方便的组合这些图层。流程就转变为:
  • 创建一个或多个RenderLayer。
  • 创建RenderComposition,设置其BackgroundColor、FrameDuration、RenderSize,以及RenderLayer 数组。
  • 使用创建的RenderComposition创建 VideoLab。
  • 使用创建的VideoLab生成AVPlayerItem或AVAssetExportSession。
  最新的流程极大的简化了用户的使用成本。
  
  那VideoLab是如何把这些描述对象转换为AVFoundation的三大对象的呢?
  先来看下AVComposition,我们需要给AVComposition分别添加视频轨道与音频轨道。如图所示,这个RenderComposition包含6个RenderLayer,其中一个是RenderLayerGroup。
  第一步是将RenderLayer转换VideoRenderLayer,VideoRenderLayer 是框架内部对象,包含一个RenderLayer,主要负责将RenderLayer的视频轨道添加到AVComposition中。可转换为VideoRenderLayer的 RenderLayer包含以下几类:1. Source包含视频轨道;2. Source为图片类型;3. 特效操作组不为空(Operations)。
  转化为VideoRenderLayer后的第二步是将VideoRenderLayer视频轨道添加到AVComposition中。从上图中的例子可以看到,我们有3个视频轨道,还有一个Blank Video Track。 这里的空视频是指视频轨道是黑帧且不包含音频轨道的视频,为image或只有Operation的VideoRenderLayer服务。
  从图中能看到VideoRenderLayer1和VideoRenderLayer5共用的一个视频轨道,这是因为苹果对视频轨道有限制,我们需要尽量的重用,每条视频轨道对应一个解码器,当解码器数量超出系统限制时,会出现无法解码的错误。框架视频轨道重用的原则是,如果要放入的 VideoRenderLayer 与之前视频轨道的VideoRenderLayer在时间上没有交集,则可以重用这个视频轨道,所有视频轨道都重用不了则新增一个视频轨道。当然这些其实都不重要,因为都封装在了VideoLab里面。
  让我们接着聊下添加音频轨道,添加音频轨道第一步是将RenderLayer 转换为AudioRenderLayer,AudioRenderLayer是框架内部对象,包含一个RenderLayer,主要负责将RenderLayer的音频轨道添到AVComposition中。可转换为AudioRenderLayer的RenderLayer只需满足一个条件:Source包含音频轨道。转换AudioRenderLayer之后如右图所示。
  添加音频轨道的第二步,将AudioRenderLayer视频轨道添加到AVComposition中,对于RenderLayer的Source包含音频轨道的AudioRenderLayer,从Source中获取音频AVAssetTrack,添加到AVComposition。
  如右图所示,不同于视频轨道的重用,音频的每个AudioRenderLayer都对应一个音频轨道。这是由于一个AVAudioMixInputParameters与一个音频的轨道一一对应,而其音高设置(audioTimePitchAlgorithm)作用于整个音频轨道。如果重用的话,会存在一个音频轨道有多个AudioRenderLayer的情况,这样会导致所有的AudioRenderLayer都要配置同样的音高,这显然是不合理的。
  接下来介绍一下关于渲染的实现。从前面的AVFoundation介绍可知,AVVideoComposition可以用来指定渲染大小和渲染缩放,以及帧率。此外,还有一组存储了混合参数的指令。有了这些指令后,AVVideoComposition可以通过自定义混合器来混合对应的图像帧。
  第一步是创建指令,我们会在时间轴上标记每个VideoRenderLayer的起始时间点与结束时间点。然后为每个时间间隔创建一个Instruction,与时间间隔有交集的VideoRenderLayer,都作为Instruction的混合参数。
  然后我们对前面的Compositor工作流程做一个更新,将混合参数更新为与Instruction有交集的VideoRenderLayer组。对于混合规则的话,是按层级渲染,从下往上。如当前层级有纹理则先处理自己的纹理,再混合进前面的纹理。
  从前面的AVFoundation介绍可知,AVAudioMix用于处理音频。包含一组的AVAudioMixInputParameters,可以设置实时处理音频,指定音高算法。音频混合比较简单,只要为每个AudioRenderLayer创建了一个AVAudioMixInputParameters即可。
  6. VideoLab后续计划
  前面介绍了VideoLab的设计与实现。当然要做一个好的开源框架还需要不断的完善,接下来介绍一些VideoLab后续的计划。
 
  首先是支持OpenGL,GL还是目前大多数公司选择渲染引擎的首选,VideoLab 的规划是能同时支持Metal + OpenGL,使用方决定渲染引擎使用Metal或Open GL。其次会持续完善特性,如变速、更便捷的转场使用方式。接下来会开始写有UI交互的Demo,这样可能会更直接一些。最后,当然期望VideoLab是可以跨平台,期望是上层能有统一的C++封装API,统一设计思路,底下用各自的平台优势,比如iOS用AVFoundation 做编解码,Android用 FFmpeg;iOS用Metal/GL,Android用Vulkan/GL。
  最后也是期望能有更多的人参与维护,毕竟一个人的能力比较有限,大家一起维护能有更多的未来畅想。
  这里附带上Github地址:https://github.com/ruanjx/VideoLab
  以上是我的全部分享,谢谢大家。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业