您当前的位置：首页 > 电脑百科 > 程序开发 > 语言 > Python

值得与Python结合使用的五个新颖的数据科学工具

时间：2023-06-19 14:38:29 来源：51CTO 作者：

+ 加入收藏

译者 | 布加迪

Python/ target=_blank class=infotextkey>Python庞大的数据科学工具生态系统对用户有很大的吸引力。生态系统如此庞大而丰富的唯一缺点是，有时最好的工具可能会被忽视。

下面介绍了其中几款面向Python的最优秀的或不太知名的数据科学项目。Polars等一些项目得到了比以前更多的关注，但依然值得更广泛的关注，ConnectorX等其他工具则是隐藏的瑰宝。

1.ConnectorX

大部分数据位于数据库的某个地方，但计算操作通常在数据库外面进行。为实际工作从数据库倒腾数据可能会减慢速度。ConnectorX将数据从数据库加载到Python中的许多常见数据整理工具中，并通过尽量减少要完成的工作量来保持高速度。

像后面讨论的Polars一样，ConnectorX在其核心使用Rust库。这便于优化，比如说能够在分区的同时从数据源加载数据。PostgreSQL中的数据可以通过指定分区列来加载。

除了PostgreSQL外, ConnectorX还支持从MySQL/MariaDB、SQLite、Amazon Redshift、Microsoft SQL Server、Azure SQL以及Oracle读取数据。结果可以汇集到Pandas或PyArrow，或者通过PyArrow汇集到Modin、Dask或Polars。

2.DuckDB

使用Python的数据科学人员应该了解SQLite，这是一种用Python打包的小巧、但功能强大且快速的关系数据库。由于它作为进程内库来运行、而不是作为单独的应用程序来运行，因此属于轻量级，且响应迅速。

DuckDB有点像有人回答这个问题：“如果我们设计面向OLAP的SQLite，会怎么样？”与其他OLAP数据库引擎一样，它使用列式数据存储，并针对长时间运行的分析查询工作负载进行了优化。但是它提供了您期望从传统数据库获得的所有功能，比如ACID事务。而且没有单独的软件套件需要配置。您使用单单一个pip install命令，即可在Python环境中让它运行起来。

DuckDB可以直接摄取采用CSV、JSON或Parquet格式的数据。为了提高效率，还可以根据键（比如按年和按月）将生成的数据库划分为多个物理文件。查询起来与任何其他基于SQL的关系数据库相似，但拥有额外的内置特性，比如能够获取数据的随机样本或构造窗口函数。

DuckDB还有一小批实用的扩展，包括全文搜索、Excel导入/导出、直接连接到SQLite和PostgreSQL、Parquet文件导出以及支持许多常见的地理空间数据格式和类型。

3.Optimus

最繁琐的工作之一就是清理和准备数据，用于以DataFrame为中心的项目。Optimus是一种一体化工具集，可用于加载、探索和清理数据，以及将数据写回众多数据源。

Optimus可以使用Pandas、Dask、CUDF（及Dask + CUDF）、Vaex或Spark作为底层数据引擎。数据可以从Arrow、Parquet、Excel、各种常见的数据库源或平面文件格式（比如CSV和JSON）加载，并保存成这些格式。

数据操作API类似Pandas，但添加了.rows()和.cols()访问器，以便易于执行对数据框排序、按列值筛选、根据标准更改数据或根据某些标准缩小操作范围之类的操作。Optimus还随带处理器，用于处理常见的实际数据类型，比如电子邮件地址和URL。

Optimus可能存在的一个问题是，它仍在积极开发中，但上一次正式发布是在2020年。这意味着它可能不像您堆栈中的其他组件那样是最新的。

4.Polars

如果您花费大量时间来处理DataFrame，并且对Pandas的性能限制感到沮丧，不妨使用Polars。这个面向Python的DataFrame库提供了类似Pandas的便捷语法。

不过与Pandas不同的是，Polars使用了一个用Rust编写的库，可以直接最大限度地利用您的硬件。您不需要使用特殊语法来利用并行处理或SIMD等提升性能的功能，都是自动可以利用的。就连像从CSV文件读取这样的简单操作也更快了。

Polars还提供了即时和延迟执行模式，因此查询可以立即执行，也可以延迟到需要时执行。它还提供了流式API，用于增量处理查询，不过许多函数还不能使用流式API。而Rust开发人员可以使用pyo3制作自己的Polars扩展。

5.Snakemake

数据科学工作流很难建立，更难以一致的、可预测的方式建立。Snakemake的创建就是为了实现这一点：在Python中自动建立数据分析机制，同时确保其他人都能得到与您相同的结果。许多现有的数据科学项目都依赖Snakemake。数据科学工作流中的不定因素越多，您就越有可能受益于用Snakemaker自动化处理工作流。

Snakemake工作流类似GNU make工作流：您用规则定义想要创建的东西，这些规则定义了它们接受什么、输出什么以及执行什么命令来做到这一点。工作流规则可以是多线程的（假设这会给它们带来好处），配置数据可以从JSON/YAML文件通过管道导入。您还可以在工作流中定义函数来转换用于规则中的数据，并将在每个步骤采取的操作写入到日志。

Snakemake作业旨在可移植——它们可以部署到任何Kube.NETes管理的环境中，或部署到特定的云环境中，比如google Cloud Life Sciences或AWS上的Tibanna。工作流可以被“冻结”，以使用一些具体的软件包，并且任何成功执行的工作流都可以自动生成单元测试，并加以存储。若是长期存档，您可以将工作流存储为打包文件（tarball）。

原文标题：5 newer data science tools you should be using with Python，作者：Serdar Yegulalp

Tags：Python 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Python 可视化：Plotly 库使用基础

当使用 Plotly 进行数据可视化时，我们可以通过以下示例展示多种绘图方法，每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】

2024-04-01　　Search: Python 点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是：一名基层人员，要给一次比赛活动获奖的500名选手制作奖状，并...【详细内容】

2024-03-26　　Search: Python 点击:(17)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

工厂模式是一种常见的设计模式，它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中，我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】

2024-03-07　　Search: Python 点击:(33)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

Python的字典推导式是一种优雅而强大的工具，用于创建字典（dict）。这种方法不仅代码更加简洁，而且执行效率高。无论你是Python新手还是有经验的开发者，掌握字典推导式都将是你技能...【详细内容】

2024-02-22　　Search: Python 点击:(34)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

Python是一种高级编程语言，它具有简洁、易于理解和易于维护的特点。然而，代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构？代码重构是指在不改变代码外部行为的...【详细内容】

2024-02-22　　Search: Python 点击:(35)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

在编写代码的过程中，括号几乎无处不在，以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】

2024-01-26　　Search: Python 点击:(87)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能，可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法，并提供一些示例代码和...【详细内容】

2024-01-26　　Search: Python 点击:(88)　　评论:(0)　　加入收藏

大语言模型插件功能在携程的Python实践

作者简介成学，携程高级安全研发工程师，关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初，科技圈最火爆的话题莫过于大语言模型了，它是一种全新的聊天机器人模型，...【详细内容】

2024-01-26　　Search: Python 点击:(74)　　评论:(0)　　加入收藏

如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道

译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中，为了生存和发展，企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统，现在都需要接近即时...【详细内容】

2024-01-26　　Search: Python 点击:(47)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个...【详细内容】

2024-01-25　　Search: Python 点击:(59)　　评论:(0)　　加入收藏

▌简易百科推荐

Python 可视化：Plotly 库使用基础

2024-04-01　　Python技术　　　　Tags:Python 　点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

2024-03-26　　Python技术　　微信公众号　　Tags:Python 　点击:(17)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

2024-03-07　　Python都知道　　微信公众号　　Tags:Python 　点击:(33)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

2024-02-22　　子午Python　　微信公众号　　Tags:Python技巧　点击:(34)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

2024-02-22　　编程技术汇　　　　Tags:Python代码　点击:(35)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

2024-01-26　　Python学研大本营　　微信公众号　　Tags:PyCharm插件　点击:(87)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

2024-01-26　　科学随想录　　微信公众号　　Tags:Graphlib库　点击:(88)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

2024-01-25　　大雷家吃饭　　　　Tags:Python 　点击:(59)　　评论:(0)　　加入收藏

使用Python进行数据分析，需要哪些步骤？

Python是一门动态的、面向对象的脚本语言，同时也是一门简约，通俗易懂的编程语言。Python入门简单，代码可读性强，一段好的Python代码，阅读起来像是在读一篇外语文章。Python这种特...【详细内容】

2024-01-15　　程序员不二　　　　Tags:Python 　点击:(166)　　评论:(0)　　加入收藏

Python语言的特点及应用场景, 同其它语言对比优势

Python语言作为一种高级编程语言，具有许多独特的特点和优势，这使得它在众多编程语言中脱颖而出。在本文中，我们将探讨Python语言的特点、应用场景以及与其他语言的对比优势。一...【详细内容】

2024-01-09　　　　今日头条　　Tags:Python语言　点击:(257)　　评论:(0)　　加入收藏

推荐资讯

重新审视2008年全球金	京东掷10亿现金扶持达
直播电商激战正酣：2023	“霸王条款”“刷单炒
“淘京拼”直播电商争	京东砸下两个“十亿”
短剧淘金者摊牌：抖快们	阿里巴巴的关键时刻