全平台硬件解码渲染方法与优化实践

  • 时间:
  • 浏览:4

5、Android硬解渲染及常见间题报告 补救

硬件解码后不恰当地使用OpenGL渲染会是因为性能下降,甚至不如软解。本文来自PPTV移动端研发经理王斌在LiveVideoStackCon 2017大会上的分享,并由LiveVideoStack派发而成。分享中王斌完整版解析了Windows、Linux、macOS、Android、iOS等多种平台下硬件解码的渲染土办法及优化实践。

2、硬解纹理转换一般思路

让我们让我们让我们儿期待将这一 间题报告 冗杂,也却说实现从解码现在刚开始到渲染现在刚开始视频数据老要在显存上进行补救。我猜想,与否地处一种生活生活数据共享土办法也却说API间的数据共享从而补救数据在内存与显存之间无前要的来回拷贝?相似使用D3D则会生成D3D的Texture,肯能D3D与OpenGL间地处允许数据共享的接口,那末 就后要 保证无论数据何如被传输都保留在显存上或不前要传输就可直接进行下一流程的补救;肯能上述猜想不成立,肯能内存与GPU间的数据传输波特率和内存与CPU间相比快这一这一,后要 通过与GPU间的数据拷贝显著提升性能?当然让我们让我们让我们儿不后要 针对GPU提供的接口,转换GPU中的数据,相似将OpenGL的纹理从一个 的YUV转上加RGB以获得理想的硬解数据流,上述都会让我们让我们让我们儿在考虑硬解优化时想到的补救方案。

1、常规土办法渲染硬解数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/83747420

Apple的macOS使用VideoToolbox作为解码器且输出对象为CVPixelBufferRef也却说保地处内存或显存上的图像数据;VideoToolbox有多种输出格式,如YUV420P、NV12、RGB、UYVY422等。刚接触此平台时我注意到了这一平台那末 的UYVY422格式,肯能老版本系统不提供NV12接口,故UYVY442格式普遍用于老系统;而新系统上提供的NV12补救波特率远高于UVYV442。当时我将此发现反馈给FFmpeg社区,如果社区在FFmpeg中上加了用以选则VideoToolbox输出结果的接口:肯能是支持性能不佳的老系统则使用UYVY442格式,而新系统则使用NV12格式。macOS的纹理准备过程与传统软解相似,而纹理更新过程则略有不同,在其纹理更新中的PixelBuffer以都会输出并保存一个 IOSurface,关于IOSurface的完整版内容我会在后文提到。macOS通过OpenGL Framework中的一个 CGL实现将IOSurface转换为纹理,而输出的结果较为独特,如输出的纹理无须2D类型却说一个 矩形纹理。macOS也可通过TextureCache土办法实现纹理转换并输出RGB型纹理,但性能较为低下,什么都那末 此赘述。

上图表示GPU(CPU)内存与显存间数据的交换波特率,其中虚线表示数据由显存拷贝到内存的波特率,实线表示数据由内存拷贝到显存的波特率。从中让我们让我们让我们儿后要 看一遍,数据由显存拷贝到内存的波特率共却说内存拷贝到显存的1/5,这也是为那先 使用DXVA硬解都会总出 不如软解流畅的是因为。

上图展示的是Texturecache由TexToolbox buffer转到(Texture崩溃)的堆栈,仔细观察没能发现一个 的Texturecache法实在也是调用TexImageIOSurface,何如会会在么在在老平台地处此接口却那末 被启用?最终我在iOS5中发现了TextureImageIOSSurface的地处,而iOS11相对于iOS5仅仅是参数的上加与接口的微调,否则使用GPU分析工具检查后可发现IOS11与老版本系统的Texturecache土办法相似,都会通过调用一个 从老版本iOS上就地处至今的接口来实现相关功能。

但创建共享上下文的土办法对这一安卓开发者而言门槛较高。第二套方案是在流程现在刚开始时创建一个 无效的纹理,肯能Surface Texture可把纹理附加至Surface Texture上,一个 只需在第一次渲染时把这一 在渲染多应用程序 创建的共要纹理附上加即可。

通过上图让我们让我们让我们儿后要 发现D3D11+EGLStream的软解流程与常规的OpenGL软解渲染流程有所不同,EGLStream首先前要创建EGLStream对象,而后再创建纹理对象;在纹理准备期间也前要利用此扩展并设置consumer的OpenGL ES纹理,更新、渲染纹理时EGLStream提供了PostD3D11的土办法,此土办法共要直接将D3D纹理作为OpenGL ES纹理使用。在后期进行渲染时肯能涉及到一个 API——D3D11与OpenGL,调用API时不能同时访问二者,故前要进行Acquire过程用以锁定D3D11资源使得不能OpenGL可访问此资源。在此前一天让我们让我们让我们儿就可借助OpenGL渲染纹理,现在刚开始渲染后Release也却说解锁资源。

最后想介绍些关于Open MAX AL的内容。Open MAX AL在安卓上并未提供EGLStream扩展,而创建OMXAL播放器时前要设置输出参数,对安卓而言输出Native Display对象也却说ANative Window,其由Surface获取并调用NDK接口,与OMX AL输出的Surface一致,这一这一前一天的与Surface相关的流程和MediaCodec完整版相同。

让我们让我们让我们儿好,我是来自PPTV的王斌。接下来我将围绕以下有几个话题,为让我们让我们让我们儿分享有关全平台硬件解码的渲染与优化的实践经验。

iOS仅提供TextureCache法,这是因为着不前要生成纹理而仅需在准备纹理阶段创建TextureCache类即可并从Cache中直接获取纹理,此流程与绝大多数前要先生成一个 纹理再进行转换等操作的传统硬解渲染土办法有明显不同。

被使用最多的EGLImage目前作为扩展形式地处,如OpenMarxAL等专门提供了一套可输出到EGLImage的接口,而树莓派的MMAL硬件解码则提供了一套由MMAL输出的Buffer转换为GELImage的土办法。EGLImage可与窗口系统无关,同样也可用于那末 窗口系统的服务器端。在实际应用中让我们让我们让我们儿会优先考虑使用EGLImage,视频数据经过与EGLImage对应的OpenGL扩展输出为OpenGL纹理从而实现了接口之间的共享。而较新的EGLStream是英伟达老要推崇的土办法,目前我所接触到的应用主要两个 :一个 是OpenMarxAL接口,其可直接作为EGLStream的输入扩展并可输出OpenGL纹理,一个 则应用在D3D11的硬件解码上。肯能让我们让我们让我们儿使用EGLStream则前要重点核对一个 扩展名:producer与consumer。producer是硬件解码输出的对象,consumer则是输出的OpenGL纹理。除了那先 扩展,让我们让我们让我们儿还可利用这一OpenGL扩展。对于Windows平台而言Windows使用DXVA与D3D11解码,输出结果为D3D纹理;在这里,英伟达提供了一个 可将D3D资源直接转换为OpenGL纹理的接口,但此接口受到GPU驱动的限制,地处一定的使用环境限制;对于Linux平台而言如X11窗口系统,Linux提供了一个 将X11的pixmap转上加GLX也却说OpenGL纹理的土办法,此土办法前一天也用于VA-API现在已不被推荐使用。

接下来我将介绍D3D11硬解,D3D11硬解基于EGL提供的资源共享功能。而D3D可与OpenGL ES老要建立联系的是因为是最早的Windows平台对OpenGL驱动的支持老要不佳,而火狐、Chromium等浏览器为了在每人及环境下都能很好支持OpenGL,于是加入了一个 由 Google发起的被称为ANGLE的开源项目。ANGLE是指用D3D9与D3D11的这一指令和(着色器)实现OpenGL ES与EGL所有接口相似的功能。除了使用ANGEL实现对OpenGL  ES的支持,那先 厂商也通过ANGEL实现对WebGL的支持。除此之外,这一如QT还有微软推出的Windows Bridge for iOS等开源项目都会基于ANGEL Project,那先 项目都会通过ANGEL Project实现OpenGL ES的调用。

软解OpenGL渲染的数据流为:首先,通过调用TexSublmage将解码后放上主存上的数据拷贝到显存上用于更新纹理,如果的渲染过程也是基于显存上的数据进行。

1.1 常规的OpenGL渲染

常规的软解OpenGL渲染流程主要分为两次要:一是在渲染纹理前进行的准备纹理,二是渲染前更新纹理。准备纹理具体是地处第一次渲染第一帧前先创建一个 设置好相应参数的纹理,而后再使用Texlmage2D将GPU上一定大小的显存空间分配给此纹理;进行渲染前首先需绑定此纹理,并借助TexSublmage2D技术将解码数据填充进前一天分配好的纹理存储空间中,也却说所谓的“纹理上传”。

D3D11的硬解输出结果为D3D11纹理,输出格式为NV12。后续在转换纹理时让我们让我们让我们儿两个 思路:思路一较为常见,这里就不再赘述。思路二是借助EGLStream扩展,在创建一个 共享的D3D11纹理后再从此纹理创建一个 EGLSurface,此Surface可绑定至OpenGL纹理;让我们让我们让我们儿前要做的是将解码出的纹理拷贝至共享的D3D11纹理上,拷贝土办法是借助D3D11的Video Processor接口将YUV转上加RGB。尽管此土办法波特率较高,但这一Chrome开发者仍然实在前要尽肯能减小其带来的性能损失,也却说追求完整版那末 任何数据转换的最佳方案。否则在2016年时EGLStream扩展被推出,从而有效改善了性能损失带来的影响。

4、 iOS & macOS

这就引起了进一步思考:既如果能 将二者进行统一,那末 前一天老平台上的Texturecache究竟起了那先 作用?

2)软解数据流

事实证明一个 是可行的,最终让我们让我们让我们儿可统一整个苹果6手机手机系统的解码渲染流程,除了OpenGL接口与OpenGL ES接口的差异之外,其它的流程完整版相同。

但用GLX的土办法肯能比较过时,而Linux平台上总出 的这一新补救方案可带来明显的硬解性能提升。如现在比较流行的EGL,让我们让我们让我们儿可将其理解为一个 连接渲染接口与窗口系统之间的桥梁。EGL的大多数功能通过集成扩展实现,主要的共享土办法为GELImage与GELStream。

3.、D3D11+EGLStream

以上一种生活生活土办法基本补救了这一相对重要的MediaCodec间题报告 ,除此之外让我们让我们让我们儿也会面临APP后台切换至前台时UpdateTexImage()错误的状况,肯能是肯能上下文不对一般可通过重新初始化解码器或使用TextureView等土办法补救。但肯能用户想借助SurfaceView补救此间题报告 ,也可通过共享上下文的土办法,为SurfaceView提供一个 上下文并在每次渲染前激活。但此土办法具有仅适用于我每人及创建的上下文的局限性,肯能上下文由内部提供,那末 让我们让我们让我们儿还后要 通过attach土办法。

最终让我们让我们让我们儿成功统一了macOS与iOS一个 平台的补救流程,在此前一天肯能开发者想调用官方提供的接口,首先前要判断iOS版本,肯能是iOS11则使用新土办法,老版本则前要使用上加参数的土办法。 

Android平台中集成了Java、MediaCodec、OMX AL(应用层创建播放器)等可直接调用的接口。除此之外还有一种生活生活提供了如创建、解码器组件等诸多更底层功能的OMX IL接口,但肯能将此接口与OpenGL结合,肯能EGLImage所需的扩展是非公开的,否则OMX IL无须一个 NDK系统库而Android7.0前一天的版本不允许访问非NDK系统库,故而让我们让我们让我们儿仅使用MediaCodec与OMX AL。

派发 / LiveVideoStack

总结各个平台的状况没能发现,考虑硬解前一天让我们让我们让我们儿前要思考硬解的输出,肯能硬解的输出不像软解的输出是一组到内存指向各平面的指针,让我们让我们让我们儿前要获知硬解输出的对象与格式。现在这一这一硬解都会以YUV作为输出格式如NV12等,当然排除个别定制化产品通过参数配置调整输出格式为RGB的状况,根据经验硬解一般选则YUV作为输出格式。首先是肯能RGB的输出实际上是在GPU内部进行的色彩空间转换,会对性能产生一定影响;其次让我们让我们让我们儿也面临无法保证YUV转上加RGB的精确性,矩阵系数是定值则无法适应多样场景的间题报告 。

attach土办法大致流程如下:每次渲染时生成纹理并attach至上下文,调用更新纹理的土办法使得数据保留在纹理上,最后将此纹理Detach。

即使iOS与macOS可实现那末 数据拷贝的纹理转换,但一个 平台地处两套补救流程,这也会对开发者带来不便。而苹果6手机手机公司如果公开的一个 被称为IOSurface的新框架为接下来的探索提供了思路,其中包括了从PixelBuffer获取IOSurface的土办法。IOSurface用以多多应用程序 间进行GPU数据共享,硬件解码输出至GPU显存并通过IOSurface实现多多应用程序 间的数据共享。VideoToolbox作为一个 服务,不能在APP现在刚开始解码时才会启动解码多多应用程序 。而Get IOSurface的土办法在macOS上早已地处,但在iOS11的SDK中第一次总出 。除了前要GetIOSurface,让我们让我们让我们儿还前要转成纹理的函数,同样在macOS的OpenGL Framework中让我们让我们让我们儿发现了TextureImageIOSurface。此函数的功能与macOS上的相似,这是都会是因为着让我们让我们让我们儿后要 将iOS与macOS的补救流程进行整合?

硬解OpenGL渲染的数据流原理与软解略有不同,解码过程中的数据存储在显存上。这里前要强调的是,即使对基于统一内存模型的移动平台而言不一定地处物理显存,但移动平台会通过将内存映射给GPU与CPU来构建逻辑显存。解码后的拷贝、更新纹理、渲染与软解相似,数据流会分别经过主存、显存、显存。这里的解码在显存上的数据实在是硬解提供的相应解码输出而非各个平面的数据指针,否则系统前要将硬解出的数据拷贝至内存上并借助TexImage2D技术上传纹理。经过实践让我们让我们让我们儿发现此土办法的波特率无须高,相似在实测中让我们让我们让我们儿借助软解流程可实现10100P全高清视频的流畅播放,而若借助DXVA硬解流程补救同一个 全高清视频文件则会变得非常卡顿,那末 何如来优化硬解流程呢?思路一是对显存与内存间的拷贝过程进行优化,相似在Windows上较为出名的LAV Filters滤镜就使用了如SSEV4.1加速、多多应用程序 拷贝等,提升显著。但肯能面对同时播放多个视频等较为冗杂的应用场景,内存之间的拷贝仍会影响整个补救流程的稳定运行。

解码后的视频数据需经过纹理加载后才会进行下一步的OpenGL ES渲染操作,其关键在于何如将解码后的数据填充到纹理中。不同的平台对于此间题报告 的补救方案却说尽相同,这也是让我们让我们让我们儿今天讨论的重点。

MediaCodec地处一种生活生活输出,其一是ByteBuffer也却说将结果输出到内存上,当然是不被让我们让我们让我们儿采用的;其二是Surface也却说将结果输出到显存上,接下来让我们让我们让我们儿前要讨论何如构造Surface。这里有一种生活生活土办法构造Surface,土办法一是由Surface View获取Surface并直接输出至View上,但这对让我们让我们让我们儿而言是因为着无法使用OpenGL,故排除。土办法二是Surface Texture,在解码多应用程序 的现在刚开始前要配置MediaCodec输出,由纹理构建Surface Texture,而后Surface Texture借助UpdateTexImage法实现渲染多应用程序 更新纹理。这里前要明确的是Surface Texture纹理的对象是那先 样的?肯能Android那末 相关文档,让我们让我们让我们儿可假设此纹理是一个 有效纹理,何如创建此纹理?

1)软解OpenGL渲染流程

肯能采取数据共享,该何如找到那先 数据共享接口?首先让我们让我们让我们儿应当从平台入手,了解像iOS、Android等不同平台提供了那先 共享接口。如iOS与这一硬解库提供的数据拷贝接口,如英伟达的CUDA提供的转换接口等。Linux中也集成了被称为VA-API的硬解接口,针对GLX环境VA-API提供了一种生活生活可将硬解输出转换为RGB纹理的土办法,开发者可直接调用此接口与其相应功能。

文 / 王斌

以XBMC为例,首先解码多应用程序 会给渲染多应用程序 以创建好纹理的信息同时渲染多应用程序 会反馈信息给解码多应用程序 。但肯能此消息循环机制并未在所有APP上推行,这对设计适用所有APP框架下的播放器来说无须合理,针对此间题报告 让我们让我们让我们儿有两套补救方案:第一套方案是后要 在解码多应用程序 创建共享上下文并在此上下文下创建一个 可在渲染多应用程序 被访问的纹理。

1.2 硬解OpenGL渲染

而macOS与iOS也是借助前一天提到的平台提供的纹理共享接口。