人工智能在视频领域的新趋势与落地应用
扫描二维码
随时随地手机看文章
(文章来源:百家号)
在场景需求的推动下,以及背后算法、算力、数据的支撑下,AI 已经慢慢走出实验室,开始拥抱产业,这其中也包括 RTC 行业。在实时视频、实时音频、实时传输、视频内容检索与推荐、实时交互等层面,都已经出现了与 AI 结合的落地应用。
近几年来,超分辨率在计算机视觉领域逐渐成为一个研究热点,在图像的增强、去噪、细节恢复,以及图像放大等方面有着广泛的应用前景,并且也引起了无论是学术界还是工业界的重视。开场,声网AI算法工程师周世付为大家进行了"深度学习在移动端实时视频超分辨率的应用和探索"的主题分享。他分别从超分是如何解决移动RTC的一些痛点,超分的发展现状以及存在的问题,以及超分算法在移动RTC的落地过程中遇到的一些挑战以及声网在这方面做的一些工作三个方面来展开分享。
"做GAN经常会遇到一个问题,就是对抗神经网络模型容易出现模式坍塌,在超分领域也会存在模式坍塌的问题。声网Agora做了一些改进,减少模式坍塌发生的概率。另外在图像失真度这方面做了一些改进。我们的效果跟ESR来对比,我们能够比较好的去重构,比如说像细节比较丰富的图像。"他在分享中谈到,"但是,超分的优势很明显,就是它重构出来的效果很好,它也为此要付出一个代价,就是它的运算复杂度很高。
分享中,他重点介绍了声网在本届RTC大会上发布的声网Agora实时超分算法。该技术可以将实时传输中的视频在原有分辨率的基础上实现两个方向的2倍同步放大,并获得显著的细节增强。同时支持在云端和移动终端上实时运行,并在移动终端达到非常出色的效果。
视频网站面临的挑战之一就是视频的分发,理解用户,理解视频内容是解决目前视频网站的一个关键的核心和要点。论坛上,Hulu(美国本土的在线视频服务公司)首席研发经理谢晓辉,为大家分享了"视频内容理解与推荐算法实践"的主题分享。
推荐算法历史的演进过程,推荐算法其实是研究人的一种科学。我们需要有一种非常精细的刻画,然后去真实地理解用户的兴趣和他的意图。"其次,他从显式的基于高阶语义的标签刻画、隐式的嵌入矢量表示、故事与情节的引人入胜、视觉/听觉因素的影响四个方面阐释了对内容的深刻理解如何提升推荐系统性能,同时分享了Hulu基于内容推荐方面做的探索和实践,如将标签精细化、实现标签集合的扩充等。
具体来说,"我们利用热播的剧场一些相对丰富的标签作为标注信息,然后对长尾的内容做标签预测。我们大概最终支持180个左右的标签,准确率在0.85左右,某种程度上很多标签已经是可用的程度。这些标签语义其实非常高,比如大家可以看到,Fantasy world等,类似这种语义其实已经是非常高的语义。"谢晓辉分享到,"我们还可以利用搜索引擎找到一些初始的种子图像,在Hulu上面跑,然后经过人工筛选,重新构成一个训练集,最终去训练我们的模型。"