当前位置:首页 > 智能硬件 > 人工智能AI
[导读] “唐马儒们”这两年可能正在面临前所未有的职业危机。 这个因饰演鉴黄师而走红的角色,激起了大家对鉴黄这个职业的好奇心。南方都市报就曾对这个群体做过调查,得出的结论是: 不知道的以为

“唐马儒们”这两年可能正在面临前所未有的职业危机。

这个因饰演鉴黄师而走红的角色,激起了大家对鉴黄这个职业的好奇心。南方都市报就曾对这个群体做过调查,得出的结论是:

不知道的以为很黄很刺激,其实挺辛苦,也挺枯燥。平均下来一分钟要浏览50个以上的用户、上百张图片,所以盯着电脑都要全神贯注。

这个最先因“扫黄打非”而被公安部门设立的岗位,这些年也成为各大互联网公司的“刚需”岗位之一。但近年来由于 AI 技术的迅猛发展,辛苦又枯燥的鉴黄师工作正越来越多地被 AI 所替代。

近日,阿里就隆重推出了一位“AI 鉴黄师”。

据羿戓设计所了解,阿里AI鉴黄师不仅能鉴别黄片黄图,连带有情色信息的语音内容都能识别,甚至无语义的呻吟声也能识别出来。

为什么需要 AI 鉴黄?

做电商出身的阿里巴巴,使用 AI 鉴黄最先来自于自身具体业务的需求。

“电商业务场景中,我们需要对大量商家的海量图片进行审核,那时还没有 AI 的说法,只是用机器学习的方法来进行图片的鉴别。”薛晖举例,在违规售卖的商家中,有些是非恶意的,比如一些受保护的动植物、某些品类的刀具甚至药物等,某些商家不知道这是不能卖的;还有一些就是“明知故犯”的,比如用色情图片恶意引流、发布一些做黑灰产的广告、色情光盘网盘地址等。

随着商家数量和图片数量的飞速增长,对效率更高、成本更低的AI鉴图就有了刚性需求。

后来,随着阿里在电商、大文娱、社交、云计算、O2O、视频、直播等领域的不断拓展,这项需求愈加强烈,凡是有UGC(用户产生内容)的业务,都会面临色情低俗风险。在数据量和算法技术有一定积累后,这项技术也同时开始对外进行输出,越来越多的企业和机构也开始使用这项服务。

雷锋网发现,2015年阿里曾推出“绿网”平台,其最主要的功能之一就是进行色情、广告等信息的识别和拦截。薛晖告诉编辑,绿网的这个功能,当年也是阿里云战略中的一部分,AI 鉴黄的技术是作为赋能生态的一部分。

也就是说,目前用到 AI 鉴黄的业务早已不仅仅是淘宝中的商家,还有千千万万使用阿里云的企业们,比如,近两年因涉黄而颇受关注的多家直播网站。

从存储需求到鉴别需求,随着 AI 鉴黄技术的加入,这项技术会让阿里云争取到更多的用户。

鉴黄需要攻克的三个关键点

提到人工智能,都会关注三个问题:数据、算法、算力。

数据方面, “AI鉴黄师 ”首先需要有充足的学习资料。

薛晖透露,首先他们会写一些自动化爬取图片的脚本,可以直接到网页中相应区域进行图片爬取。目前他们总共浏览了近2000家网站,下载了超过6000万张疑似色情图片。

但这些图片仅仅是疑似图片,还需要进行去重,实际去重后约2300万张图片,在这之中,需要人工再进行标识,最终实际标注了超过1300万张图片,而这1300多万张图片就是最后模拟训练的原始数据库。

值得注意的是,数据标准的制定很重要,因为在不同国家、不同行业、不同时期,对色情的标准定义不一样,比如政府网站和直播网站,就会有不一样的标准,目前,他们可以给用户提供一定的操作空间,用户可以根据自身情况来对风险做不同层次的管控,比如他们会给用户很多选项,不同的用户可以自身需要来勾选。

第二个关键点是算法。

比如,10000 张图片里面往往有一张属于色情图片,但为了识别出这一张图片,机器扫描的成本是10000次,这就需要模型更轻,速度更快。据薛晖介绍,在算法方面,他们对神经网络进行了优化,并针对问题的特点做了专门的改进,不光有检测模型来拦截风险,还部署了图像检索引擎,来防范突发的风险。

第三是在算力方面,原来千万级别的样本,GPU机器单机单卡的情况下训练时间要近一个月,后来团队更换了网络结构并实现了多机多卡训练,将千万级别样本的训练时间控制在一周左右。换句话说,面对同样数量的图片,他们选择用更多的机器对图片进行训练,比如原本需要一周才能训练完的图片,现在只需要一天,这样就可以更快的对模型进行优化,提高迭代速度。

AI 与人工如何合作?

虽然 AI 鉴黄所发挥的能力越来越大,但目前仍然需要人工的干预。

据薛晖透露,目前 AI 鉴黄师对单张图的判断准确率要大于99.5%,通常来看,AI对一张图有三个判断:违规,可疑,正常。

对于违规和正常的图片,他们会放过,而对标注为可疑的图片,则需要人工审核,这部分数据占比较低,一般小于0.5%。打个比方,有4亿张图片要审,AI识别准确率为99.5%,只有20万张可疑的图片,需要人工再审核一次。

另外,据羿戓设计了解,由于黑产针对安全模型也在不断进行对抗,比如业内很关注的对抗学习(GAN),明明肉眼看是一张色情图片,但黑产经过处理可以逃避检测。针对这样的情况,安全模型也需要不断进行升级,目前,阿里有跟浙大合作做这方面的研究,之后他们会公布研究结果。

语音识别这方面,AI也仍需不断进行完善,在当天的峰会中,来自科大讯飞北京研究院副院长伍大勇举了这样一个例子,“黑夜总会过去,白天总会来临”,这句话本并没有什么问题,但在系统中一直过不去,原因是这句话当中有“夜总会”三个字。

也就是说,目前 AI 鉴黄并不能完全取代人工鉴黄,最佳的审核方式是智能为主,人工为辅。由于AI鉴黄师的出现,人工鉴黄师群体会变少,未来人工在图片鉴黄中的工作将主要集中于打标和审查可疑图片。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭