VS Code 中数据整理器快速入门指南

Data Wrangler 是一个集成在 VS Code 和 VS Code Jupyter Notebooks 中的代码中心数据查看和清理工具。它提供了一个丰富的用户界面来查看和分析您的数据，显示有见解的列统计信息和可视化，并在您清理和转换数据时自动生成 Pandas 代码。

以下是从 notebook 中打开 Data Wrangler 的一个示例，以使用内置操作来分析和清理数据。然后将自动生成的代码导出回 notebook。

一个从 notebook 打开 Data Wrangler 的 GIF，浏览数据，从查看模式切换到编辑模式，应用数据转换，并将生成的 Python 代码导出回 notebook。

这个页面的目标是帮助你快速开始使用Data Wrangler。

设置您的环境

当你第一次启动Data Wrangler时，它会询问你希望连接到哪个Python内核。它还会检查你的机器和环境，以确定是否安装了所需的Python包，例如Pandas。

无论何时你在Data Wrangler中，你都处于一个受限的环境中，这意味着你可以安全地探索和转换数据。在你明确导出更改之前，原始数据集不会被修改。

如果你的笔记本中有Pandas数据框，你将会看到一个在数据整理器中打开“df”按钮（输入：df是你的数据框的变量名) 在运行任何之后出现在单元格的底部df.head()，df.tail()，显示(df)，打印(df)，和输入：df输入：.

一个显示从笔记本进入数据整理器的截图

你也可以直接从本地文件（例如一个）启动 Data Wrangler输入：.csv) 要做到这一点，请在 VS Code 中打开包含您要打开的文件的任何文件夹。在文件资源管理器视图中，右键单击该文件并点击在数据整理器中打开.

显示从文件进入数据整理器的截图

Data Wrangler在处理数据时有两种模式。每个模式的详细信息在下面的各节中解释。

查看模式： 查看模式优化了界面，使您可以快速查看、过滤和排序您的数据。此模式非常适合对数据集进行初步探索。
编辑模式： 编辑模式优化了界面，使您可以对数据集应用转换、清理或修改。当您在界面中应用这些转换时，Data Wrangler会自动生成相关的Pandas代码，这可以导出到您的笔记本中以供重复使用。

注意：默认情况下，Data Wrangler以查看模式打开。您可以在设置编辑器中更改此行为。输入：.

显示数据整理器在查看模式下用户界面中不同组件的截图

切换到编辑模式会在Data Wrangler中启用额外的功能和用户界面元素。在以下截图中，我们使用Data Wrangler将最后一列中的缺失值替换为该列的中位数。

显示数据整理器编辑模式下用户界面中不同组件的截图

操作面板是您可以搜索Data Wrangler的所有内置数据操作的地方。这些操作按类别组织。
清理步骤面板显示了之前应用的所有操作列表。它使用户能够撤销特定操作或编辑最近的操作。选择一个步骤将在数据网格中突出显示该操作的更改，并显示与该操作生成的代码。
导出菜单允许您将代码导出回Jupyter Notebook或导出数据到新文件。
当你选择了一个操作并预览其对数据的影响时，网格上会覆盖一个数据差异视图，显示你对数据所做的更改。
代码预览部分显示了在选择操作时Data Wrangler生成的Python和Pandas代码。当未选择任何操作时，它保持为空。您可以编辑生成的代码，这将导致数据网格突出显示对数据的影响。

给定一个数据集，常见的数据清理任务之一是处理数据中存在的任何缺失值。下面的示例展示了如何使用Data Wrangler将缺失值替换为该列的中位数。在通过界面完成转换的同时，Data Wrangler还会自动生成用于替换缺失值的Python和Pandas代码。

一个使用Data Wrangler来替换数据集中缺失值的示例

本页介绍了如何快速开始使用Data Wrangler。有关Data Wrangler的完整文档和教程，包括Data Wrangler当前支持的所有内置操作，请参阅以下页面。