批量运行多个提示

注释

批量运行曾是 AI 工具包中的独立网页视图功能。它现在已完全集成到代理构建器中的评估标签页中。你仍然可以通过 AI 工具包视图选择“工具”>批量运行来访问它。

AI Toolkit 中的批量运行功能允许你在批处理模式下针对多个测试用例测试代理和提示。与一次运行一个提示符的游乐场不同,批量运行通过使用数据集作为输入并顺序运行所有提示来实现自动化。

执行后,AI回复会出现在数据集视图中,与你的原始提示相邻。您可以查看、比较并导出完整的数据集及回复以供进一步分析。

显示 AI 工具包界面与批量运行功能的截图。数据集表显示多个提示和回答,涵盖法国巴黎和中国上海的天气查询。

开始批量跑

要在 AI Toolkit 中启动批量运行,请按照以下步骤作:

  1. 在 AI 工具包视图中,从活动栏选择代理构建器。
  2. 输入提示词和变量,格式如下。选择一个模型来运行提示。
  3. 切换到代理构建器中的评估标签页。
注释

AI Toolkit 使用你为智能体生成数据集使用的相同大型语言模型,这可能会产生成本。你可以在 AI Toolkit 的 GitHub 仓库中查看用于生成数据集的元提示。

  1. 选择生成数据以创建合成数据集。
  2. 选择生成的行数,并查看或修改数据生成逻辑。AI 工具包中“生成数据”对话框的截图。
  3. 选择生成以创建数据集。
提示

你可以选择只运行尚未运行的剩余查询。

  1. 数据集加载完成后,选择运行单行,选择全部运行数据集中的所有行。

对数据集进行作

截图显示了 AI 工具包与数据集作的接口及评估结果表。

AI Toolkit 提供多种作,用于批量运行时管理和分析您的数据集:

  • 生成数据:基于提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
  • 添加行:向数据集添加一行。
  • 删除行:从数据集中删除选中的行。
  • 导出数据集:将数据集导出为CSV文件以便进一步分析或报告。
  • 导入数据集:从CSV文件导入数据集作为批量运行的输入。
  • 运行:在数据集中对所选模型执行一行。
  • 全部运行:对所选模型执行数据集中的所有行。
  • 运行剩余:只执行尚未对所选模型运行的行。
  • 人工评估:将回答标记为“赞”或“拇指向下”,以记录人工评估。

评估批量运行结果

AI Toolkit 让你可以直接在数据集视图中评估批量运行的结果。

一张显示 AI 工具包界面全屏模式的截图,评估标签展开。数据集表显示多个列,包括查询提示和AI响应,便于详细分析。

你可以将评估标签展开为全屏模式,以获得更详细的结果视图。全屏模式提供与标准视图相同的功能,但显示面积更大,以便更好地观察和分析。

截图显示了评估结果的详细视图,并配有一个模式对话框,显示用户与助手之间关于天气查询的完整对话。

选择查看详情,查看每个查询的完整回答。

在详细视图中,你可以:

  • 回顾用户与助理之间的完整对话。
  • 分析AI的回答。
  • 将回答标记为好坏,以记录人工评估。
  • 在数据集中浏览到之前或下一个查询。
  • 选择退出以返回数据集概览。
  • 查看数据集中的总查询数和当前查询索引。

管理数据列

截图显示了 AI 工具包界面,包含数据集管理选项和列管理控件。

通过数据列管理,你可以自定义数据集视图,聚焦于对大批量分析最相关的信息。

你可以:

  • 添加列:在当前列的左侧或右侧添加列。
  • 编辑列名:更改数据集中任意列的名称。
  • 添加真实数据栏:添加一栏以显示真实数据,以便与AI回答进行比较。

你学到了什么

在本文中,你学到了:

  • 生成一个用于批量运行的合成数据集。
  • 导入和导出CSV格式的数据集。
  • 对批量运行结果进行测试。
  • 将回答标记为好坏,以记录人工评估。
  • 查看回答详情,并在数据集中浏览查询。
  • 管理数据列以实现更好的分析。

下一步