批量运行多个提示

注意

批量运行以前是AI Toolkit中的一个独立的网页视图功能。现在已完全集成到Agent Builder的评估标签页下。您仍然可以通过选择TOOLS > Bulk Run来通过AI Toolkit视图访问它。

AI 工具包中的批量运行功能允许您以批处理模式测试多个测试用例的智能体和提示。与只能一次运行一个提示的 playground 不同，批量运行通过使用数据集作为输入并顺序运行所有提示来自动化这个过程。

执行后，AI响应会显示在数据集视图中，旁边是您原始的提示。您可以查看、比较和导出包含响应的完整数据集以进行进一步分析。

截图显示了AI工具包界面和批量运行功能。数据集表显示了多个提示和响应，包括关于法国巴黎和中国上海的天气查询。

开始批量运行

要开始在AI工具包中进行批量运行，请按照以下步骤操作：

注意

AI 工具包使用与代理相同的 LLM 模型来生成数据集，这可能会产生费用。您可以在AI 工具包 GitHub 仓库中查看用于生成数据集的元提示。

小贴士

您可以选择仅运行尚未运行的剩余查询。

截图显示了AI工具包界面，包含数据集操作和评估结果表格。

AI 工具包在批量运行期间提供了几种操作来管理和分析您的数据集：

AI 工具包允许您在数据集视图中直接评估批量运行的结果。

截图显示AI工具包界面以全屏模式显示，评估选项卡已展开。数据集表显示多个列，包括查询提示和AI响应，以进行详细分析。

您可以扩展评估选项卡至全屏模式，以更详细地查看结果。全屏模式提供了与标准视图相同的功能，但显示区域更大，便于查看和分析。

截图显示了评估结果的详细视图，一个模式对话框显示了用户和助手之间关于天气查询的完整对话。

选择 查看详情 以查看每个查询的完整响应。

在详细视图中，您可以：

截图显示了AI工具包界面，包含数据集管理选项和列管理控件。

通过数据列管理，您可以自定义数据集视图，以专注于批量运行分析的最相关信息。

你可以：

在本文中，您将学习如何：