批量运行多个提示
注意
批量运行以前是AI Toolkit中的一个独立的网页视图功能。现在已完全集成到Agent Builder的评估标签页下。您仍然可以通过选择TOOLS > Bulk Run来通过AI Toolkit视图访问它。
AI 工具包中的批量运行功能允许您以批处理模式测试多个测试用例的智能体和提示。与只能一次运行一个提示的 playground 不同,批量运行通过使用数据集作为输入并顺序运行所有提示来自动化这个过程。
执行后,AI响应会显示在数据集视图中,旁边是您原始的提示。您可以查看、比较和导出包含响应的完整数据集以进行进一步分析。

开始批量运行
要开始在AI工具包中进行批量运行,请按照以下步骤操作:
- 在AI工具包视图中,选择智能体构建器 从活动栏。
- 输入您的提示和变量使用
格式。选择一个模型以运行提示。 - 切换到 评估 选项卡在 代理构建器 中。
注意
AI 工具包使用与代理相同的 LLM 模型来生成数据集,这可能会产生费用。您可以在AI 工具包 GitHub 仓库中查看用于生成数据集的元提示。
- 选择 生成数据 以创建合成数据集。
- 选择生成的行数并查看或修改数据生成逻辑。

- 选择生成以创建数据集。
小贴士
您可以选择仅运行尚未运行的剩余查询。
- 数据集加载后,选择运行以运行单行,或选择全部运行以运行数据集中的所有行。
对数据集进行操作

AI 工具包在批量运行期间提供了几种操作来管理和分析您的数据集:
- 生成数据:根据提示和变量创建合成数据集。指定行数并修改数据生成逻辑。
- 添加行:向数据集添加新行。
- 删除行:从数据集中删除所选行。
- 导出数据集:将数据集导出到CSV文件以进行进一步分析或报告。
- 导入数据集:从CSV文件导入数据集,以用于批量运行的输入。
- 运行:对选定模型执行数据集中的单行。
- 运行全部:对数据集中的所有行执行所选模型。
- 剩余运行:仅运行尚未针对所选模型运行的行。
- 人工评估:通过点赞或点踩来标记响应,以记录人工评估。
评估批量运行结果
AI 工具包允许您在数据集视图中直接评估批量运行的结果。

您可以扩展 评估 选项卡至全屏模式,以更详细地查看结果。全屏模式提供了与标准视图相同的功能,但显示区域更大,便于查看和分析。

选择 查看详情 以查看每个查询的完整响应。
在详细视图中,您可以:
- 查看用户和助手之间的完整对话。
- 分析AI的回复。
- 将回复标记为好评或差评以记录人工评估。
- 导航到数据集中的上一个或下一个查询。
- 选择退出返回数据集概览。
- 查看数据集中查询的总数和当前查询索引。
管理数据列

通过数据列管理,您可以自定义数据集视图,以专注于批量运行分析的最相关信息。
你可以:
- 添加列:在当前列的左侧或右侧添加列。
- 编辑列名:更改数据集中任何列的名称。
- 添加真实数据列:添加一列真实数据值,以便与AI响应进行比较。
你所学到的
在本文中,您将学习如何:
- 生成用于批量运行的合成数据集。
- 导入和导出 CSV 格式的数据集。
- 对批量运行结果进行评估。
- 将回复标记为好评或差评以记录人工评估。
- 查看响应的详细信息并在数据集中导航查询。
- 管理数据列以进行更好的分析。
下一步
- 进行评估 使用流行的评估器