当前位置:首页 > 物联网 > 智能应用
[导读]我们的重点从评估一般LM能力转移到评估我们特定的膳食计划模型的性能。这意味着仔细判断我们的提示的有效性和由此产生的膳食计划的质量。在此之前,我们需要组装我们的工具包:

我们的重点从评估一般LM能力转移到评估我们特定的膳食计划模型的性能。这意味着仔细判断我们的提示的有效性和由此产生的膳食计划的质量。在此之前,我们需要组装我们的工具包:

1.定义你的指标

什么是度量标准?衡量是衡量你的评价的磁带--我们用来评估成功的量化标准。例如,在食品科学中,有很多变量会影响菜的味道:口感、温度、盐、酸性、脂肪含量等等。然而,一个人理解其中任何一种的方式是通过一些指标:例如。,每一口含脂肪量的克数,或由10人组成的1-10等级的口腔感觉。这些"输出度量"是衡量标准--我们能够理解我们感兴趣的性能的方法。良好的度量应该是明确的、一致的和定量的,以帮助您理解模型的行为。

要确定哪些度量标准适用于您的产品,请考虑机器人性能的哪些方面最重要。虽然通用度量提供了一个起点,但请记住,您可能需要至少一个定制的度量,以适合您唯一的饮食规划应用程序。食谱的适宜性、饮食的坚持性和口味偏好等方面可能没有被标准的衡量标准完全捕捉到。考虑这些类别可能与我们的用例特别相关,从各个NLP任务中的既定评价实践中吸取灵感:

营养精确度

· 宏观和微量营养素校准 :生成的膳食计划是否会影响到用户的热量和宏观目标?必要的维生素和矿物质是否充分结合?在这里,我们可以利用定量分析,制定能够捕捉到,例如,每个反应的平均维生素含量的措施。

· 饮食限制的坚持 :机器人是否一贯尊重用户偏好,如素食主义、素食主义或过敏症?可以自动检查是否存在特定成分。这涉及生成的膳食计划的"相关性",确保它们满足用户的具体需求。

加工质量和可行性

· 完整性和明确性 :这些食谱是否结构合理,有详细的成分清单和易于理解的说明?这方面可能受益于自动检查结构要素和关于清晰度的人的质量反馈。

· 成分供应及成本 :在大多数杂货店,所需的原料是否容易买到?膳食计划是否符合实际的预算限制?这关系到膳食计划的"基础"--确保它们是基于真实世界的数据和约束。考虑使用外部数据源或API来验证成分的可用性和平均成本。

· 品味和多样性 *虽然主观,但收集用户对膳食计划总体吸引力和多样性的反馈至关重要。这种定性数据可以通过调查、评级或审查来收集。

用户体验

· 使用方便 :用户能轻易输入他们的信息并收到个性化的计划吗?A/B测试不同的接口设计,并通过问卷收集用户的反馈,可以非常有效。模型的响应是否容易理解和直观?

· 定制选项 机器人允许灵活性吗?用户是否可以根据自己的喜好调整部分、换餐或要求其他选择?跟踪用户使用这些功能的频率,分析他们对结果的满意度。您可以通过跟踪用户生成膳食计划的频率、每个会话创建的计划数量以及使用定制功能的频率来衡量用户参与度。此外,通过跟踪用户是否在一段时间内返回到使用机器人来监控用户保留。

· 总体满意度 :用户对生成的计划有多满意?他们会把机器人推荐给其他人吗?采用净发起人得分(NPS)或满意度等指标来衡量总体情绪。

负责的人工智能

· 毒性和偏见 机器人是否产生任何有害或令人讨厌的内容?它是否表现出基于性别、族裔或其他敏感属性的偏见?仔细分析模型的输出,可能使用现有的毒性和偏倚检测工具,对于确保人工智能的道德和负责任至关重要。

· 幻觉症 :机器人是否捏造信息或提出虚假索赔作为事实?鉴于配方的生成通常涉及创造性,而且可能并不总是有一个"正确"的答案,评估幻觉需要仔细考虑。采用多方面的方法,利用一致性检查、针对外部数据库的事实核实,以及重要的是用户反馈。

业绩指标

· 回应时间: 机器人产生膳食计划的速度有多快?这是用户体验的一个关键因素,特别是在实时交互设置中。

· 效率 :多少计算资源(例如:)机器人消费是为了生成膳食计划吗?平衡成本和绩效对于可持续部署至关重要。

您选择的评估方法将取决于您正在评估的具体指标。为了确定正确的指标,下面是一些需要思考的问题:

· 我们是否可以删除指令中的任何歧义,以便测试人员能够做出客观的决定?

· 指标是否反映了我们试图衡量的数量?我们应该向评标师说明这个数量是多少。

o 你可能会问,"数量是指什么?"这与我们试图解决的问题非常相关。例如,在评估真实性时,我们希望确保我们在答复中提出的任何主张都是基于事实的。这是通过准确性完成的。例如,如果我问,"斯蒂夫柯里有多高?你的模型回答说"他有6尺2寸",这是可以量化的说法。他实际上是6尺3寸所以反应不准确。评级没有主观性。你的模型差了一英寸。

o 为了获得更多的质量评级,例如质量或以下指导,我们需要向评级者说明我们对这些计量的简明定义意味着什么,以便他们能够试图做出量化的判断。关键是,尽管结果大多是定性的,但测试人员需要将结果转化为定量评估。这降低了评级的主观性。

2.选择评估方法

在选择评估度量标准的方法之前,请仔细考虑每种方法的优缺点:

定量评估

这个方法使用基于预先定义的规则的自动检查,客观地衡量你的膳食计划员的表现的具体方面,如营养准确性,遵守饮食限制,成分供应和成本。

定性反馈

对于更主观和微妙的方面,如食谱质量,品味吸引力,和整体用户满意度,收集丰富的,上下文反馈直接从用户通过调查,焦点小组,或一对一访谈。

A/B试验

A/B测试是数据驱动决策的一种强大技术,它涉及到对不同版本的模型进行比较(例如:,在激励策略或数据来源方面有所不同)或试验不同的提示。通过衡量您选择的指标的性能,您可以确定哪种方法产生最佳结果和用户体验。

协助评价

一个有趣的方法是利用另一个LLM的能力来评估你的饮食规划LL的输出。这使你可以利用LLM的先进推理能力,这对于评估膳食计划的复杂或主观方面特别有帮助,例如整体一致性、配方吸引力以及适合用户的特定饮食需求和偏好。

人的评价

虽然人力资源更密集,但人的判断力提供了宝贵的见解,特别是在需要专家知识时。考虑让营养学家评估生成的膳食计划的准确性和饮食坚持性,或收集经验丰富的厨师对食谱清晰度和实用性的反馈。然而,重要的是要承认主观性的潜力,特别是在评价诸如品味偏好等方面时。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭