当前位置:首页 > 物联网 > 智能应用
[导读]内容审核对于任何数字平台都至关重要,以确保用户的信任和安全。尽管人类节制可以处理某些任务,但随着平台规模,AI驱动的实时节制变得至关重要。机器学习(ML)动力系统可以通过最小的再培训和操作成本进行有效的大规模调节内容。本分步指南概述了部署AI驱动的实时审核系统的方法。

内容审核对于任何数字平台都至关重要,以确保用户的信任和安全。尽管人类节制可以处理某些任务,但随着平台规模,AI驱动的实时节制变得至关重要。机器学习(ML)动力系统可以通过最小的再培训和操作成本进行有效的大规模调节内容。本分步指南概述了部署AI驱动的实时审核系统的方法。

实时审核系统的属性

实时内容审核系统评估用户提取的内容(文本,图像,视频或其他格式),以确保符合平台策略。有效系统的关键属性包括:

· 速度:能够查看内容而不降低用户体验或引入大量延迟的能力。

· 可伸缩性:能够及时处理数千个请求。

· 准确性:最大程度地减少假阳性和假否定性的可靠性。

部署AI内容审核系统的逐步指南

步骤1:定义政策

政策是任何内容审核系统的基础。政策定义了将评估内容的规则。可能有不同的政策,例如仇恨言论,预防欺诈,成人和性内容等。这是X(Twitter)定义的政策的一个例子。

这些策略被定义为目标规则,可以将其存储为可轻松访问和评估的配置。

步骤2:数据收集和预处理

一旦定义了政策,我们就需要收集数据以作为培训机器学习模型的样本。该数据集应包括平台上预期的不同类型的内容以及符合策略和不合格的示例的良好组合,以避免偏见。

数据源:

· 合成数据生成:使用生成AI创建数据。

· 开源数据集:多个数据集可在平台和其他开源网站上在线获得。选择适合平台需求的数据集。

· 历史用户生成的内容:从道德上利用用户发布的历史内容。

一旦收集数据,就需要将其标记为训练有素的人类审稿人,他们对平台政策有深刻的了解。该标记的数据将被视为“黄金集”,可用于训练或微调ML模型。

在ML模型可以在数据上运行并产生结果之前,必须对数据进行处理以效率和兼容性。一些预处理技术可能包括:

· 文本数据:通过删除停止单词并将其分解为n-grams,将文本归一化,具体取决于应该如何消耗数据。

· 图像数据:将图像标准化到某些分辨率或像素或大小或格式以兼容。

· 视频:提取不同的帧以将它们作为图像处理。

· 音频:使用广泛可用的NLP模型将音频转录到文本中,然后使用文本模型。但是,这种方法可能会错过任何需要调节的非语言内容。

步骤3:模型培训和选择

可以根据平台的需求和支持的内容类型使用多种模型。需要考虑的一些选项是:

文本

1. 单词/术语频率截止文档频率(TF-IDF):有害或政策竞争的单词可以分配高权重,即使很少发生政策,也可以捕获违反政策的行为。但是,这种方法可能有局限性,因为符合违规文本的单词列表将受到限制,并且成熟的演员可以找到漏洞。

2. 变形金刚:这是GPT背后的想法,可以有效地捕捉委婉语或有害文本的微妙形式。一种可能的方法是根据平台的政策微调GPT。

图像

1. 预训练的卷积神经网络(CNN):这些模型在大型图像数据集上进行了培训,可以识别有害内容,例如裸体,暴力等。

2. 自定义CNNS:为了提高精度和召回,可以针对特定类别进行微调,并适合平台的策略需求。

所有这些模型必须针对“黄金数据集”进行培训和评估,以在部署前实现所需的性能。可以培训模型以生成标签,然后可以对其进行处理以提供有关内容的决定。

步骤4:部署

一旦模型准备好部署,它们就可以使用某些API来暴露它们,而不同的服务可以要求实时审核。如果不需要较不紧急任务的实时审核,则可以设置批处理处理系统。

步骤5:人类评论

AI/ML系统可能无法自信地决定所有情况。可能会出现模棱两可的决定,而预测的ML得分可以低于所选的阈值以确保自信决策。在这些情况下,应由人类主持人审查内容以进行准确的决策。人类审稿人对于审查AI系统做出的虚假积极决定至关重要。人类审阅者可以使用决策树(以决策树的形式编码的策略)生成类似的标签,并且这些标签可用于最终确定决策。

步骤6:标签处理器

标签处理器可用于解释ML系统和人类审阅者生成的标签,并将其转换为可行的用户决策。这可能是一个直接的系统,将系统生成的字符串映射到人类可读的字符串。

步骤7:分析和报告

Tableau和Power BI之类的工具可用于跟踪和可视化适度指标,Apache Airflow可用于生成见解。要监视的关键指标包括ML系统,人类审查时间,吞吐量和响应时间的精确度和召回时间。

结论

构建和部署AI驱动的实时审核系统可确保数字平台的可扩展性和安全性。本指南为平衡速度,准确性和人类监督提供了路线图,以确保内容与平台的政策和价值观保持一致。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭