VS Code 中数据整理器的快速入门指南

Data Wrangler 是一款以代码为中心的数据查看和清理工具,集成于 VS Code 和 VS Code Jupyter 笔记本中。它提供了丰富的用户界面,方便您查看和分析数据,展示富有洞察力的列统计数据和可视化,并在清理和转换数据时自动生成 Pandas 代码。

以下是从笔记本打开数据整理器,利用内置作分析和清理数据的示例。然后自动生成的代码会导出回笔记本。

一个GIF,内容是从笔记本打开Data Wrangler,查看数据,切换到编辑模式,进行数据转换,并将生成的Python代码导出回笔记本

本页面的目标是帮助您快速使用Data Wrangler。

搭建你的环境

  1. 如果你还没安装,建议安装Python注:Data Wrangler只支持Python 3.8及以上版本)。
  2. 安装Data Wrangler扩展

当你第一次启动Data Wrangler时,它会询问你想连接哪个Python内核。它还会检查你的机器和环境,看看是否安装了所需的 Python 包,比如 Pandas。

开放数据整理器

任何时候你在Data Wrangler中,都处于一个沙盒环境中,这意味着你可以安全地探索和转换数据。原始数据集只有在你明确导出修改后才会被修改。

Jupyter 笔记本中的发射数据整理器

如果你的笔记本里有一个Pandas数据帧,你现在会在Data Wrangler按钮中看到一个打开的“df”DF运行任意 后,出现在单元格底部df.head(),df.tail(),Display(DF),打印(DF), 和DF.

一张显示从笔记本进入数据整理器的截图

直接从文件进行启动数据整理器

你也可以直接从本地文件(比如.csv).要做到这一点,可以在VS Code中打开包含你想打开的文件的任何文件夹。在文件资源管理器视图中,右键点击文件,点击“在数据整理器中打开”。

一张显示从文件进入数据整理器的截图

UI巡演

数据整理器在处理数据时有两种模式。每种模式的细节将在下文后续章节中详细说明。

  1. 观看模式:查看模式优化了界面,方便你快速查看、筛选和排序数据。这种模式非常适合对数据集进行初步探索。
  2. 编辑模式:编辑模式优化界面,方便你对数据集进行转换、清理或修改。当你在界面中应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,并可导出回你的笔记本中重复使用。

注意:默认情况下,数据整理器以查看模式打开。你可以在设置编辑器里更改这个行为

观看模式接口

一张显示数据整理器查看模式下不同组件的截图

  1. 数据摘要面板显示您整体数据集的详细摘要统计数据,或如果选择了特定列。

  2. 你可以在列的头部菜单中对该列应用任何数据筛选/排序

  3. 在数据整理器中切换查看模式或编辑模式,即可访问内置的数据作。

  4. 快速洞察页首是您可以快速查看每列宝贵信息的地方。根据列的数据类型,快速洞察显示数据的分布或数据点的频率,以及缺失和不同的值。

  5. 数据网格提供了一个可滚动的窗格,你可以查看整个数据集。


编辑模式界面

切换到编辑模式可启用Data Wrangler中的额外功能和用户界面元素。在下面的截图中,我们使用 Data Wrangler 将最后一列的缺失值替换为该列的中位数。

一张显示数据整理器编辑模式下不同组件的截图

  1. 面板是你可以搜索Data Wrangler所有内置数据作的地方。作按类别组织。

  2. 清洁步骤面板显示了之前应用的所有作列表。它允许用户撤销特定作或编辑最近的作。选择一步会突出显示数据网格中的变更,并显示与该作相关的生成代码。

  3. 导出菜单允许你把代码导出回Jupyter笔记本,或者导出到新文件。

  4. 当你选中某个作并预览其对数据的影响时,网格会叠加你对数据所做的更改数据的差分视图。

  5. 代码预览部分显示 Data Wrangler 在选择作时生成的 Python 和 Pandas 代码。当未选择作时,它保持空。你可以编辑生成的代码,这样数据网格会突出显示对数据的影响。

示例:替换数据集中的缺失值

给定一个数据集,常见的数据清理任务之一是处理数据中存在的任何缺失值。下面的示例展示了如何使用数据整理器将某列的缺失值替换为该列的中位数值。虽然转换通过接口完成,但数据整理器还会自动生成替换缺失值所需的 Python 和 Pandas 代码。

一个使用数据整理器替换数据集缺失值的示例

  1. 作面板中,搜索“填充缺失值”作。
  2. 在参数中指定你想用什么来替代缺失值。在这种情况下,我们将用该列的中位数替换缺失值。
  3. 验证数据网格是否显示了数据差异的正确变化。
  4. 验证 Data Wrangler 生成的代码是否符合您的预期。
  5. 应用该作后,它会被添加到你的清洁步骤历史中。

下一步

本页介绍了如何快速开始使用 Data Wrangler。有关Data Wrangler的完整文档和教程,包括目前支持的所有内置作,请参见以下页面。

与数据整理器合作