VS Code 中数据整理器快速入门指南
Data Wrangler 是一个集成在 VS Code 和 VS Code Jupyter Notebooks 中的代码中心数据查看和清理工具。它提供了一个丰富的用户界面来查看和分析您的数据,显示有见解的列统计信息和可视化,并在您清理和转换数据时自动生成 Pandas 代码。
以下是从 notebook 中打开 Data Wrangler 的一个示例,以使用内置操作来分析和清理数据。然后将自动生成的代码导出回 notebook。

这个页面的目标是帮助你快速开始使用Data Wrangler。
设置您的环境
当你第一次启动Data Wrangler时,它会询问你希望连接到哪个Python内核。它还会检查你的机器和环境,以确定是否安装了所需的Python包,例如Pandas。
开放数据整理师
无论何时你在Data Wrangler中,你都处于一个受限的环境中,这意味着你可以安全地探索和转换数据。在你明确导出更改之前,原始数据集不会被修改。
从 Jupyter Notebook 启动数据 Wrangler
如果你的笔记本中有Pandas数据框,你将会看到一个在数据整理器中打开“df”按钮(输入:df是你的数据框的变量名) 在运行任何之后出现在单元格的底部df.head(),df.tail(),显示(df),打印(df),和输入:df输入:.

直接从文件中启动数据 Wrangler
你也可以直接从本地文件(例如一个 )启动 Data Wrangler输入:.csv) 要做到这一点,请在 VS Code 中打开包含您要打开的文件的任何文件夹。在文件资源管理器视图中,右键单击该文件并点击在数据整理器中打开.

UI 之旅
Data Wrangler在处理数据时有两种模式。每个模式的详细信息在下面的各节中解释。
- 查看模式: 查看模式优化了界面,使您可以快速查看、过滤和排序您的数据。此模式非常适合对数据集进行初步探索。
- 编辑模式: 编辑模式优化了界面,使您可以对数据集应用转换、清理或修改。当您在界面中应用这些转换时,Data Wrangler会自动生成相关的Pandas代码,这可以导出到您的笔记本中以供重复使用。
注意:默认情况下,Data Wrangler以查看模式打开。您可以在设置编辑器中更改此行为。输入:.
查看模式界面

-
数据概要面板显示了您的整个数据集或选定列的详细摘要统计数据。
-
您可以从列标题菜单中对任何数据过滤器/排序应用到该列上。
-
在 查看 和 编辑 模式之间切换,以访问内置数据操作。
-
快速见解标题是您可以快速查看每个列的有价值信息的地方。根据列的数据类型,快速见解显示数据的分布或数据点的频率,以及缺失和不同的值。
-
数据网格提供了一个可滚动的面板,您可以在此查看整个数据集。
编辑模式界面
切换到编辑模式会在Data Wrangler中启用额外的功能和用户界面元素。在以下截图中,我们使用Data Wrangler将最后一列中的缺失值替换为该列的中位数。

-
操作面板是您可以搜索Data Wrangler的所有内置数据操作的地方。这些操作按类别组织。
-
清理步骤面板显示了之前应用的所有操作列表。它使用户能够撤销特定操作或编辑最近的操作。选择一个步骤将在数据网格中突出显示该操作的更改,并显示与该操作生成的代码。
-
导出菜单允许您将代码导出回Jupyter Notebook或导出数据到新文件。
-
当你选择了一个操作并预览其对数据的影响时,网格上会覆盖一个数据差异视图,显示你对数据所做的更改。
-
代码预览部分显示了在选择操作时Data Wrangler生成的Python和Pandas代码。当未选择任何操作时,它保持为空。您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。
示例:在您的数据集中替换缺失值
给定一个数据集,常见的数据清理任务之一是处理数据中存在的任何缺失值。下面的示例展示了如何使用Data Wrangler将缺失值替换为该列的中位数。在通过界面完成转换的同时,Data Wrangler还会自动生成用于替换缺失值的Python和Pandas代码。

- 在操作面板中,搜索填充缺失值操作。
- 在参数中指定您希望用什么来替换缺失值。在这种情况下,我们将用该列的中位数值替换缺失值。
- 验证数据网格是否正确显示了数据差异的变化。
- 验证Data Wrangler生成的代码是否符合您的预期。
- 执行此操作,它将被添加到您的清洁步骤历史记录中。
下一步
本页介绍了如何快速开始使用Data Wrangler。有关Data Wrangler的完整文档和教程,包括Data Wrangler当前支持的所有内置操作,请参阅以下页面。