人工智能膳食规划,纳入真实世界数据进行验证
扫描二维码
随时随地手机看文章
设计一套不同的验证方案,以密切反映现实世界的场景和用户请求。这种真实的评估确保了机器人能够处理用户可能提出的多样化、有时不可预测的请求。
纳入真实世界数据
超越假设的情况,取而代之的是,纳入现实世界中的用户输入或者你从在线论坛、食谱网站或者社交媒体上收集到的通常被问到的饮食计划问题。这将确保您的评估反映出机器人将如何实际使用,并揭示可能在理想化测试案例中不明显的潜在问题。
使用提示模板
为了确保一致性和效率,创建可重用的快速模板,可以容易地适应不同的情况。这简化了评价过程,并使各种设想方案之间的比较更加系统化。
以下是您可能使用的提示集示例:
· 基本膳食需求 :"为一名25岁的花生过敏女性制定一项为期7天的素食计划。"
· 特殊饮食需求 :"为面筋不耐症患者制作低碳水化合物、高蛋白的膳食计划。"
· 创造性挑战 :"建议使用季节性配料的独特和美味的素食食谱。"
· 复杂约束 :"为饮食偏好不同、预算有限的四口之家制定膳食计划。"
假设您想评估您的模型的质量及其响应。您可以创建一个质量评估模板(可以用于其他用例)。虽然并非详尽无遗,但对答复进行评级的一些标准可以是:
· 准确性 信息是否属实,是否符合现行的营养准则?
· 相关性 :回应是否直接指向用户的查询?
· 完整 *答复是否提供了充分的信息来全面处理该查询?
· 清晰 *答复清楚、简明、易懂吗?
· 安全性 答复是否避免了潜在的有害或误导性的建议?
· 个性化(如适用) *答复是否考虑到用户的个人需求和偏好(如果在提示中提供)?
· 专业主义 *答复是否以专业和同情的方式作出?
评级
· 优秀的 *非常符合所有评价标准
· 好的 *符合大多数评价标准,改进余地不大
· 令人满意的 *符合基本要求,但有明显的改进领域
· 需要改进 ::若干评价标准不足
· 不满意的 ::不符合基本要求,提供不准确或可能有害的信息
抽样说明
1. 提示:"我希望减肥。你能推荐一个节食计划吗?"
2. 提示:"我可以在两餐之间吃些什么健康的零食?"
3. 我是素食主义者。我如何确保我有足够的蛋白质?"
4. 提示:"如果我早上不饿,不吃早餐可以吗?""
5. 我的孩子是个挑剔的食客。你有什么建议吗?"
6. 提示:"我有高血压。我应该避免哪些食物?"
7. 提示:"我怀孕了。我需要关注的重要营养素是什么?"
8. 提示:"我有乳糖不耐症。什么是钙的好来源?"
9. 提示:"你能解释好脂肪和坏脂肪的区别吗?"
10. 提示:"我正在为马拉松训练。跑步前后我该吃什么?"
一个例子 等级提示符 就像:
· 我是素食主义者。我如何确保我有足够的蛋白质?"
· LLM反应:素食并不意味着你得不到足够的蛋白质。有大量的植物蛋白来源,如豆类,扁豆,豆腐,坚果和种子。每天一定要在你的饮食中加入各种各样的食物。你也可以尝试植物蛋白粉,以获得额外的提升。
评价 使用上述模板:
· 准确性 :非常好。这些信息是准确的,并符合当前素食者的营养指南。
· 相关性 :非常好。该回复直接解决了用户关于在素食饮食中获取足够蛋白质的问题。
· 完整 :很好。该反应提供了蛋白质来源的良好概述,但通过提及特定的蛋白质量或服务量,可以更加全面。
· 清晰 :非常好。答复清晰、简明、易懂。
· 安全性 :非常好。建议是安全的,不提倡任何有害的做法
· 个性化 ::不适用。提示没有提供任何个人细节以供定制的建议。
· 专业主义 :很好。这种反应是专业的,但可以用更有同情心的语气来加强,比如承认素食的潜在挑战。
· 评级: 好的
现在,对于竞争对手模型,遵循相同的流程,您希望将其作为基线使用。,双子座1.5,或者说。
· 计算平均得分 :
o 你的标准 :将你的LMA的收视率除以提示数。
o 目标1(或类似基线) :对Tg-1评级进行同样的计算。
· 比较和分析 :
o 直接比较 :直接比较平均得分。根据你的评价标准,平均值越高,总体表现越好.
o 分布分析 查看每种模式的评级分布情况(多少"优秀"、"优秀"等)。各收到)。这可以突出具体领域的长处和弱点。
o 具体的即时分析 :如果某些提示语的评级有显著差异,请详细分析这些提示语,以了解为什么一个模型的性能比另一个好。
模型平均分优秀的好的令人满意的需要改进不满意的
你的标准4.230501550
目标13.8204525100
· 解释 :
o 在这个例子中,你的LMA的平均得分稍高一些,这表明根据你的评价标准,整体表现更好。
o 你的LMA也有更高的百分比的"优秀"评级,表明它在更多的领域是优秀的。
o ChatGPT有更多的"满意"和"需要改进"评级,突出了可能需要进一步改进的领域。
利用评价数据
评价不仅仅是收集数据,它是为了提取可操作的见解,以不断完善你的人工智能厨师。专业的LLS评估框架和工具可以显著简化分析,并帮助您从评估数据中获得更深入的见解。
以下是这些工具和框架通常提供的一些好处:
· 预先确定的指标 :可使用涵盖共同评价方面的现成指标,如准确性、偏见、幻觉等,无需从头创造一切。
· 数据网管理工具 :毫不费力地组织和有效处理您的评估数据,促进系统的分析和跟踪。
· 可视化仪表板 :在一段时间内获得对模型性能的清晰、直观的洞察力,使其更容易识别趋势,发现潜在问题,并确定需要改进的领域。
· 切下你的数据 不要只看全局。按用户人口统计(年龄,饮食限制),提示类型,甚至一天的时间来分解结果。揭示隐藏模式可以导致强大的优化。
· 拥抱迭代 :评估不是一次性的事件;它是一个贯穿于开发生命周期的连续过程。随着您收集更多的数据,分析性能,并做出数据驱动的改进,您的膳食计划机器人将变得更加准确、可靠和方便用户。
持续改进
持续改进是一个不断完善和提高模型性能、安全性和总体能力的过程。它是关于不断地挑战这些人工智能模型所能达到的极限,使它们更可靠、更有用,并与人类价值相一致。
从本质上讲,评价是一个反馈循环,为开发人员提供了重要的信息,可以反复改进他们的LLMS。这种持续的评估、分析和完善周期是这些强大的人工智能模型的持续改进的动力,最终导致在各个领域更有能力、更合乎道德和更有利的应用。
结论:人工智能膳食规划完美之旅
把你的膳食计划机器人想成是正在制作中的烹饪杰作。就像任何美味的菜肴一样,它需要仔细的品尝,调整和精致,以达到它的全部潜能。当你的味蕾,引导你走向完美的口味平衡--从营养的准确性,饮食的坚持,食谱的质量和用户的喜悦。
记住,评估不是一次性的,它是一个持续不断的改进过程。通过采用一个强有力的评估框架和利用数据驱动的洞察力,你可以把你的人工智能膳食计划从一个有前途的原型转换成一个真正的特殊工具,使用户能够做出更健康、更愉快的食物选择。所以,继续品尝,继续精炼,并且看着你的烹饪创作蓬勃发展!