本站点文档内容均翻译自code.visualstudio.com,仅供个人学习,如有差异请以官网为准。

VS Code 中数据整理器快速入门指南

Data Wrangler 是一个集成在 VS Code 和 VS Code Jupyter Notebooks 中的代码中心数据查看和清理工具。它提供了一个丰富的用户界面来查看和分析您的数据,显示有见解的列统计信息和可视化,并在您清理和转换数据时自动生成 Pandas 代码。

以下是从 notebook 中打开 Data Wrangler 的一个示例,以使用内置操作来分析和清理数据。然后将自动生成的代码导出回 notebook。

一个从 notebook 打开 Data Wrangler 的 GIF,浏览数据,从查看模式切换到编辑模式,应用数据转换,并将生成的 Python 代码导出回 notebook。

这个页面的目标是帮助你快速开始使用Data Wrangler。

设置您的环境

  1. 如果您还没有这样做,请安装Python (注意:Data Wrangler仅支持Python 3.8或更高版本)。
  2. 安装数据整理器扩展

当你第一次启动Data Wrangler时,它会询问你希望连接到哪个Python内核。它还会检查你的机器和环境,以确定是否安装了所需的Python包,例如Pandas。

开放数据整理师

无论何时你在Data Wrangler中,你都处于一个受限的环境中,这意味着你可以安全地探索和转换数据。在你明确导出更改之前,原始数据集不会被修改。

从 Jupyter Notebook 启动数据 Wrangler

如果你的笔记本中有Pandas数据框,你将会看到一个在数据整理器中打开“df”按钮(输入:df是你的数据框的变量名) 在运行任何之后出现在单元格的底部df.head()df.tail()显示(df)打印(df),和输入:df输入:.

一个显示从笔记本进入数据整理器的截图

直接从文件中启动数据 Wrangler

你也可以直接从本地文件(例如一个 )启动 Data Wrangler输入:.csv) 要做到这一点,请在 VS Code 中打开包含您要打开的文件的任何文件夹。在文件资源管理器视图中,右键单击该文件并点击在数据整理器中打开.

显示从文件进入数据整理器的截图

UI 之旅

Data Wrangler在处理数据时有两种模式。每个模式的详细信息在下面的各节中解释。

  1. 查看模式: 查看模式优化了界面,使您可以快速查看、过滤和排序您的数据。此模式非常适合对数据集进行初步探索。
  2. 编辑模式: 编辑模式优化了界面,使您可以对数据集应用转换、清理或修改。当您在界面中应用这些转换时,Data Wrangler会自动生成相关的Pandas代码,这可以导出到您的笔记本中以供重复使用。

注意:默认情况下,Data Wrangler以查看模式打开。您可以在设置编辑器中更改此行为。输入:.

查看模式界面

显示数据整理器在查看模式下用户界面中不同组件的截图

  1. 数据概要面板显示了您的整个数据集或选定列的详细摘要统计数据。

  2. 您可以从列标题菜单中对任何数据过滤器/排序应用到该列上。

  3. 查看编辑 模式之间切换,以访问内置数据操作。

  4. 快速见解标题是您可以快速查看每个列的有价值信息的地方。根据列的数据类型,快速见解显示数据的分布或数据点的频率,以及缺失和不同的值。

  5. 数据网格提供了一个可滚动的面板,您可以在此查看整个数据集。


编辑模式界面

切换到编辑模式会在Data Wrangler中启用额外的功能和用户界面元素。在以下截图中,我们使用Data Wrangler将最后一列中的缺失值替换为该列的中位数。

显示数据整理器编辑模式下用户界面中不同组件的截图

  1. 面板是您可以搜索Data Wrangler的所有内置数据操作的地方。这些操作按类别组织。

  2. 清理步骤面板显示了之前应用的所有操作列表。它使用户能够撤销特定操作或编辑最近的操作。选择一个步骤将在数据网格中突出显示该操作的更改,并显示与该操作生成的代码。

  3. 导出菜单允许您将代码导出回Jupyter Notebook或导出数据到新文件。

  4. 当你选择了一个操作并预览其对数据的影响时,网格上会覆盖一个数据差异视图,显示你对数据所做的更改。

  5. 代码预览部分显示了在选择操作时Data Wrangler生成的Python和Pandas代码。当未选择任何操作时,它保持为空。您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。

示例:在您的数据集中替换缺失值

给定一个数据集,常见的数据清理任务之一是处理数据中存在的任何缺失值。下面的示例展示了如何使用Data Wrangler将缺失值替换为该列的中位数。在通过界面完成转换的同时,Data Wrangler还会自动生成用于替换缺失值的Python和Pandas代码。

一个使用Data Wrangler来替换数据集中缺失值的示例

  1. 在操作面板中,搜索填充缺失值操作。
  2. 在参数中指定您希望用什么来替换缺失值。在这种情况下,我们将用该列的中位数值替换缺失值。
  3. 验证数据网格是否正确显示了数据差异的变化。
  4. 验证Data Wrangler生成的代码是否符合您的预期。
  5. 执行此操作,它将被添加到您的清洁步骤历史记录中。

下一步

本页介绍了如何快速开始使用Data Wrangler。有关Data Wrangler的完整文档和教程,包括Data Wrangler当前支持的所有内置操作,请参阅以下页面。

使用数据整理器