数据处理与分析
PandasGUI
一个具有图形用户界面的惊人库,可简化数据操作和可视化功能
polars
Polars 是一个开源且相对较新的数据分析和处理库,为广泛流行的 Pandas 库提供了替代方案。
PyGWalker
PyGWalker 是一个非常强大的数据分析库。
pandas-profiling
pandas-profiling 库为你提供了一种生成给定数据帧的分析报告的方法。
Lux
Lux 可通过自动化可视化和数据分析过程来促进快速、轻松的数据探索。
AutoViz
借助 AutoViz,你可以轻松快速地为数据生成富有洞察力的可视化效果。无论你是数据分析的初学者还是专家,AutoViz 都可以帮助你探索数据并发现有价值的见解。
Sweetviz
利用 Sweetviz 可以生成漂亮的高密度可视化效果,从而通过一行代码启动 EDA(探索性数据分析)。输出是一个完全独立的 html 应用程序。
Bamboolib
如果有一种方法可以通过 GUI 访问 pandas 的功能怎么样?这就是 Bamboolib 发挥作用的地方。
Spotlight
Spotlight 是一种开源工具,提供了一种简化的交互式方法来探索数据。
它简化了可视化创建,支持自定义视图,并允许轻松与数据点交互。
Mito
Mito 是一个令人难以置信的开源工具,允许你在 Jupyter 的电子表格界面中分析数据,而无需编写任何代码。
Dataprep
Dataprep 是一个开源的 Python/ target=_blank class=infotextkey>Python 库,它的主要目标是简化和加快数据科学操作,特别关注简化「探索性数据分析(EDA) 阶段」。
D-Tale
D-Tale 是一个 Python 库,「为数据探索、分析和可视化提供了交互式且易于使用的界面」。它构建在流行的数据操作和可视化库(例如 Pandas、Plotly 和 Flask)之上。
visualpython
Visual Python 是一个开源项目,除了对各种 Python 数据科学库(pandas、seaborn 等)的强大支持之外,还可以使用 python 轻松处理「重复的数据科学任务」。
asqlcell
asqlcell 是一个开源的 Jupyter 插件,可以让你在 Jupyter 中使用 sql 就可以分析数据。对于不熟悉 python 的人非常友好。
missingno
Missingno 是一个 Python 库,用于「可视化数据集中缺失的数据」。
超参数搜索
KerasTuner
KerasTuner 是一个易于使用、可扩展的「超参数优化框架」,「解决了超参数搜索的痛点」。
Optuna
Optuna 使用户能够采用最先进的算法来采样超参数并修剪无希望的试验。
机器学习
catboost
catboost 是一个「高性能梯度提升库」,为机器学习任务提供最先进的解决方案。用于分类、回归和其他机器学习任务。支持在 CPU 和 GPU 上的计算。
自动化机器学习
PyCaret
PyCaret 是一个开源的、低代码的 Python 机器学习库,可自动化机器学习工作流程。
AutoGluon
AutoGluon 可自动执行机器学习任务,使你能够在应用程序中轻松实现强大的预测性能。
LazyPredict
LazyPredict 是一个强大的机器学习 Python 库,它提供了一种易于使用且方便的方法来「同时比较各种机器学习模型」。
Hyperopt-sklearn
「Hyperopt-sklearn」 是一个流行的 Python 库,旨在简化 scikit-learn 模型的超参数优化过程。
FLAML
FLAML 是一个轻量级的 Python 库,用于高效自动化机器学习和 AI 操作。它基于大型语言模型、机器学习模型等自动化工作流程并优化其性能。
Scikit-optimize
Scikit-optimize 是一个功能强大且易于使用的 Python 库,「用于优化机器学习模型的超参数和其他优化问题」。
Yellowbrick
Yellowbrick 是一个 Python 库,它提供了一个高级接口,用于创建可视化和诊断工具来分析机器学习算法。
mljar-supervised
mljar-supervised 是一个「可处理表格数据的自动化机器学习 Python 库」。
explainerdashboard
explainerdashboard 提供有关模型性能、特征重要性、特征对个体预测的贡献、“假设”分析、部分依赖图、SHAP(交互)值、个体决策树可视化等的交互式图。
TPOT
TPOT 是一个 Python 「自动化机器学习工具」,可使用「遗传编程」优化机器学习管道。
AutoKeras
AutoKeras 是基于 Keras 的 AutoML 系统,它的目标是让每个人都能使用机器学习。
BentoML
BentoML 是一个用于构建「可靠、可扩展且经济高效的 AI 应用程序的」框架。
它配备了模型服务、应用程序打包和生产部署所需的一切。「它旨在简化流程,使其更加易于管理和高效。」
feature-engine
feature-engine 是一个开源的 Python 库,具有多个转换器,「用于设计和选择机器学习模型的特征」。
EvalML
「EvalML 库是一种使用管道构建机器学习模型的」自动化工具。
pandas-ta
pandas-ta 是一个易于使用的 python 库,让你可以从「时间序列中提取技术分析指标」。
时间序列处理
neuralprophet
NeuralProphet 是一个「易于学习的可解释时间序列预测框架」。NeuralProphet 基于 PyTorch 构建,「结合了神经网络和传统时间序列算法」,受到 Facebook Prophet 和 AR.NET 的启发。它将神经网络的灵活性与传统预测方法的直观建模相结合。
mlforecast
mlforecast 是一个专门为大规模时间序列预测而设计的最先进的机器学习库。
prophet
Prophet 是一个由 Facebook 开源的代码库,它特别适用于「具有强季节性的数据」,例如日活跃用户数、年度销售额等。Prophet 的目标是使时间序列预测过程尽可能简单,即便是非专业人士也能轻松使用。
ChatGPT 相关
Pandas AI
一个将生成人工智能功能集成到 Pandas 中的 Python 库,可以使用对话式的方式来操作 DataFrame。
Scikit-LLM
Scikit-LLM 是文本分析领域的颠覆者。它将强大的语言模型( 如 ChatGPT )与 scikit-learn 结合在一起。
Code Interpreter
ChatGPT 代码解释器的开源实现。它允许你执行数据集分析并可视化数据。
DemoGPT
只需一个提示,你就可以通过 LangChain 的变革能力创建交互式的 Streamlit 应用程序。
Chapyter
Chapyter 是 JupyterLab Notebook 的扩展,可将 ChatGPT 无缝连接到你的编码环境。
YOLOPandas
YOLOPandas 是一个开源库,允许你使用自然语言指定命令并直接在 Pandas 对象上执行它们。
open-interpreter
使用 Open Interpreter,你可以直接在本地计算机上运行代码解释器。
ChatDev
使用 ChatDev , 你可以通过「自然语言来创建定制化的软件」。
Embedchain
Embedchain 是一个开源的 python 库,可以在任何数据集上轻松创建 LLM(大语言模型) 支持的机器人的框架。
lida
LIDA 是一个使用大型语言模型「「自动生成可视化和信息图表」」的库,它与语法无关(可与任何编程语言和可视化库配合使用,例如 matplotlib、seaborn、altair、d3 等),并可与多个大型语言模型提供商(OpenAI、Azure OpenAI、PaLM、Cohere、Huggingface)配合使用。
可视化相关
Panel
Panel 是一个开源的 Python 库,可让你完全使用Python轻松构建强大的工具、仪表板和复杂的应用程序。
plotnine
plotnine 是基于 ggplot2 的 Python 图形语法实现。该语法允许你通过将数据变量显式映射到构成绘图的视觉对象来组成绘图。https://mp.weixin.qq.com/s?__biz=MzU5NjE0NjI1MQ==&mid=2247488578&idx=1&sn=14a4e9691a2527e094ef71e77e9ac155&chksm=fe667566c911fc70063e1db94fb35c54aff543a4d8fcabfad8d16b8fc51a62154d9aaad208be&token=888886507&lang=zh_CN&scene=21#wechat_redirect
Altair
Altair 是一个 Python 统计可视化库。与 Matplotlib 和 Seaborn 相比,Altair 更注重统计特征。Altair 凭借其强大而简洁的可视化语法,可帮助你快速构建各种可视化效果。
bokeh
「Bokeh 是 Python 中一个适用于现代 Web 浏览器的交互式可视化库」,为数据科学家分析数据提供交互式和复杂的功能。
bqplot
它是一个适用于 Jupyter Notebook 的交互式绘图库,「允许用户只需几行代码即可创建复杂的可视化效果」。
Kangas
Kangas 是越来越流行的「图像数据处理和分析工具之一」。与 Pandas 彻底改变数据分析师处理表格数据的方式类似,Kangas 也在计算机视觉任务中做同样的事情。
Plotly
plotly.py 是一个「交互式、开源、基于浏览器」的 Python 图形库。
d3blocks
d3blocks 是一个包含各种图表的库,其可视化部分基于 (d3) JAVAscript 构建,只需几行 Python 代码即可创建最具视觉吸引力和实用性的图表。
folium
folium 是一个功能强大的 Python 库,可以轻松可视化地理空间数据。
seaborn
seaborn 是一个数据可视化库,可简化创建复杂且美观的可视化的过程。它带有内置主题和调色板,可增强视觉体验。
VisPy
VisPy 是一个高性能交互式 2D/3D 数据可视化库。VisPy 通过 OpenGL 库利用现代图形处理单元 (GPU) 的计算能力来显示非常大的数据集。
GUI 相关
nicegui
NiceGUI 是一个基于 Python 的 Web UI 框架,旨在简化 Python 前端应用程序的开发,特别是在机器学习和数据科学领域。
solara
Solara 是最近推出的一个框架,用于用纯 Python 构建 Web 应用程序。
DearPyGUI
DearPyGUI 是一个「简单易用的 Python GUI 库」。它采用了一个独特的方法来创建图形用户界面,即通过一系列命令式的函数调用而不是传统的对象指向方式。
shiny
shiny 是一个流行的 python 库,使用 shiny 可以快速构建美观的 Web 应用程序。
streamlit
Streamlit 是一个开源的 python 库,「可让你在几分钟内将数据脚本转变为可共享的 Web 应用程序。」
数据分析在 GPU 上运行
Xorbits
Xorbits 可以利用多核或 GPU 来加速单台机器上的计算,或扩展到数千台机器以支持处理 TB 级数据以及训练或服务大型模型。
cupy
CuPy 是一个与 NumPy 和 SciPy 数组兼容的 Python 库,「专为 GPU 加速计算而设计」。
cudf
cuDF 是一个由 NVIDIA 开发的 Python 库,它是 RAPIDS 数据科学框架的一部分。RAPIDS 旨在利用 NVIDIA 的 CUDA 技术,「通过 GPU 加速数据科学和分析应用程序。」
知识图谱相关
networkx
NetworkX 用于「创建、操作和研究复杂网络的结构、动态和功能」。
pyvis
pyvis 是一个用于「创建和可视化交互式网络图」的 Python 库。
数学相关
sympy
在 Python 中,有一些用于代数的第三方模块。我最喜欢的之一是 “SymPy”,它封装了大量方法来帮助「数据工程师快速解决常见的数学问题。」
scipy
scipy 是一个开源的 Python 库,「用于解决科学和数学问题」。它构建于 NumPy 之上,允许用户使用各种高级命令来操作和可视化数据。
latexify
latexify 是一个开源的 Python 库,旨在「将 Python 代码转换为 LaTeX 格式的方程」。
python 效率提升
Numba
Numba 可用于加速 Python 函数,而无需编写任何 C 或 C++ 代码。
其它
Segno
Segno 是一个用于创建二维码的 python 库。
icecream
IceCream 是一个 Python 库,「可以使用最少的代码轻松进行代码调试」。
loguru
Loguru 是一个旨在为 Python 带来愉快的日志记录的库,它可以完全增强你的日志记录体验,并且非常易于使用。
Rich
Rich 是一个 python 库,「用于在终端中提供富文本和漂亮的格式设置。」