人工智能膳食规划,建立评估工具包
扫描二维码
随时随地手机看文章
我们的重点从评估一般LM能力转移到评估我们特定的膳食计划模型的性能。这意味着仔细判断我们的提示的有效性和由此产生的膳食计划的质量。在此之前,我们需要组装我们的工具包:
1.定义你的指标
什么是度量标准?衡量是衡量你的评价的磁带--我们用来评估成功的量化标准。例如,在食品科学中,有很多变量会影响菜的味道:口感、温度、盐、酸性、脂肪含量等等。然而,一个人理解其中任何一种的方式是通过一些指标:例如。,每一口含脂肪量的克数,或由10人组成的1-10等级的口腔感觉。这些"输出度量"是衡量标准--我们能够理解我们感兴趣的性能的方法。良好的度量应该是明确的、一致的和定量的,以帮助您理解模型的行为。
要确定哪些度量标准适用于您的产品,请考虑机器人性能的哪些方面最重要。虽然通用度量提供了一个起点,但请记住,您可能需要至少一个定制的度量,以适合您唯一的饮食规划应用程序。食谱的适宜性、饮食的坚持性和口味偏好等方面可能没有被标准的衡量标准完全捕捉到。考虑这些类别可能与我们的用例特别相关,从各个NLP任务中的既定评价实践中吸取灵感:
营养精确度
· 宏观和微量营养素校准 :生成的膳食计划是否会影响到用户的热量和宏观目标?必要的维生素和矿物质是否充分结合?在这里,我们可以利用定量分析,制定能够捕捉到,例如,每个反应的平均维生素含量的措施。
· 饮食限制的坚持 :机器人是否一贯尊重用户偏好,如素食主义、素食主义或过敏症?可以自动检查是否存在特定成分。这涉及生成的膳食计划的"相关性",确保它们满足用户的具体需求。
加工质量和可行性
· 完整性和明确性 :这些食谱是否结构合理,有详细的成分清单和易于理解的说明?这方面可能受益于自动检查结构要素和关于清晰度的人的质量反馈。
· 成分供应及成本 :在大多数杂货店,所需的原料是否容易买到?膳食计划是否符合实际的预算限制?这关系到膳食计划的"基础"--确保它们是基于真实世界的数据和约束。考虑使用外部数据源或API来验证成分的可用性和平均成本。
· 品味和多样性 *虽然主观,但收集用户对膳食计划总体吸引力和多样性的反馈至关重要。这种定性数据可以通过调查、评级或审查来收集。
用户体验
· 使用方便 :用户能轻易输入他们的信息并收到个性化的计划吗?A/B测试不同的接口设计,并通过问卷收集用户的反馈,可以非常有效。模型的响应是否容易理解和直观?
· 定制选项 机器人允许灵活性吗?用户是否可以根据自己的喜好调整部分、换餐或要求其他选择?跟踪用户使用这些功能的频率,分析他们对结果的满意度。您可以通过跟踪用户生成膳食计划的频率、每个会话创建的计划数量以及使用定制功能的频率来衡量用户参与度。此外,通过跟踪用户是否在一段时间内返回到使用机器人来监控用户保留。
· 总体满意度 :用户对生成的计划有多满意?他们会把机器人推荐给其他人吗?采用净发起人得分(NPS)或满意度等指标来衡量总体情绪。
负责的人工智能
· 毒性和偏见 机器人是否产生任何有害或令人讨厌的内容?它是否表现出基于性别、族裔或其他敏感属性的偏见?仔细分析模型的输出,可能使用现有的毒性和偏倚检测工具,对于确保人工智能的道德和负责任至关重要。
· 幻觉症 :机器人是否捏造信息或提出虚假索赔作为事实?鉴于配方的生成通常涉及创造性,而且可能并不总是有一个"正确"的答案,评估幻觉需要仔细考虑。采用多方面的方法,利用一致性检查、针对外部数据库的事实核实,以及重要的是用户反馈。
业绩指标
· 回应时间: 机器人产生膳食计划的速度有多快?这是用户体验的一个关键因素,特别是在实时交互设置中。
· 效率 :多少计算资源(例如:)机器人消费是为了生成膳食计划吗?平衡成本和绩效对于可持续部署至关重要。
您选择的评估方法将取决于您正在评估的具体指标。为了确定正确的指标,下面是一些需要思考的问题:
· 我们是否可以删除指令中的任何歧义,以便测试人员能够做出客观的决定?
· 指标是否反映了我们试图衡量的数量?我们应该向评标师说明这个数量是多少。
o 你可能会问,"数量是指什么?"这与我们试图解决的问题非常相关。例如,在评估真实性时,我们希望确保我们在答复中提出的任何主张都是基于事实的。这是通过准确性完成的。例如,如果我问,"斯蒂夫柯里有多高?你的模型回答说"他有6尺2寸",这是可以量化的说法。他实际上是6尺3寸所以反应不准确。评级没有主观性。你的模型差了一英寸。
o 为了获得更多的质量评级,例如质量或以下指导,我们需要向评级者说明我们对这些计量的简明定义意味着什么,以便他们能够试图做出量化的判断。关键是,尽管结果大多是定性的,但测试人员需要将结果转化为定量评估。这降低了评级的主观性。
2.选择评估方法
在选择评估度量标准的方法之前,请仔细考虑每种方法的优缺点:
定量评估
这个方法使用基于预先定义的规则的自动检查,客观地衡量你的膳食计划员的表现的具体方面,如营养准确性,遵守饮食限制,成分供应和成本。
定性反馈
对于更主观和微妙的方面,如食谱质量,品味吸引力,和整体用户满意度,收集丰富的,上下文反馈直接从用户通过调查,焦点小组,或一对一访谈。
A/B试验
A/B测试是数据驱动决策的一种强大技术,它涉及到对不同版本的模型进行比较(例如:,在激励策略或数据来源方面有所不同)或试验不同的提示。通过衡量您选择的指标的性能,您可以确定哪种方法产生最佳结果和用户体验。
协助评价
一个有趣的方法是利用另一个LLM的能力来评估你的饮食规划LL的输出。这使你可以利用LLM的先进推理能力,这对于评估膳食计划的复杂或主观方面特别有帮助,例如整体一致性、配方吸引力以及适合用户的特定饮食需求和偏好。
人的评价
虽然人力资源更密集,但人的判断力提供了宝贵的见解,特别是在需要专家知识时。考虑让营养学家评估生成的膳食计划的准确性和饮食坚持性,或收集经验丰富的厨师对食谱清晰度和实用性的反馈。然而,重要的是要承认主观性的潜力,特别是在评价诸如品味偏好等方面时。