您当前的位置:首页 > 电脑百科 > 电脑知识

数据科学家95%的时间都在使用的11个基本图表

时间:2023-12-06 12:42:56  来源:微信公众号  作者:郭小喵玩AI

可视化对于理解复杂的数据模式和关系至关重要。它们提供了一种简洁的方式来理解统计模型的复杂性、验证模型假设、评估模型性能等等。因此,了解数据科学中最重要和最有用的图表非常重要。

数据科学家95%的时间都在使用的11个基本图表

本文将带来数据科学家95%的时间都在使用的11个基本图表。

数据科学家95%的时间都在使用的11个基本图表

ROC Curve

数据科学家95%的时间都在使用的11个基本图表

ROC曲线(Receiver Operating Characteristic Curve)描述了在不同分类阈值下,真阳性率(良好性能)与假阳性率(不良性能)之间的权衡关系。在二分类问题中,ROC曲线是一种常用的评估分类模型性能的工具。它绘制了在不同分类阈值下,分类器的真阳性率和假阳性率之间的关系。真阳性率是指被正确分类为正例的样本占所有实际正例样本的比例,假阳性率是指被错误分类为正例的负例样本占所有实际负例样本的比例。

ROC曲线的形状能够反映出分类器在不同阈值下的性能表现。一般情况下,ROC曲线越接近左上角,说明分类器的性能越好;而曲线越接近对角线,则表示分类器的性能越差。通过分析ROC曲线,可以选择适当的分类阈值,使得真阳性率尽可能高,同时保持较低的假阳性率,从而获得更准确的分类结果。

ROC曲线的目标是在真阳性率(良好性能)与假阳性率(不良性能)之间寻找平衡点。在分类问题中,我们希望尽可能提高真阳性率,即正确地将正例分类为正例,同时保持较低的假阳性率,即将负例误分类为正例的概率尽可能低。

Precision-Recall Curve

数据科学家95%的时间都在使用的11个基本图表

精确率-召回率曲线(Precision-Recall Curve)描述了在不同分类阈值下精确率和召回率之间的权衡关系。

在二分类问题中,精确率和召回率是常用的评估指标。精确率(Precision)是指被正确分类为正例的样本占所有被分类为正例的样本的比例。召回率(Recall)是指被正确分类为正例的样本占所有实际正例样本的比例。

精确率-召回率曲线通过绘制不同分类阈值下的精确率和召回率,展示了二者之间的权衡关系。通常情况下,当分类阈值较高时,模型更倾向于将样本分类为正例,从而提高精确率,但可能会降低召回率;而当分类阈值较低时,模型更倾向于将样本分类为正例,从而提高召回率,但可能会降低精确率。

通过分析精确率-召回率曲线,我们可以根据具体需求选择合适的分类阈值。

QQ Plot

数据科学家95%的时间都在使用的11个基本图表

QQ图(QQ Plot)用于评估观测数据和理论分布之间的分布相似性。

QQ图通过绘制两个分布的分位数来比较它们之间的相似性。其中一个分布是观测数据的分布,另一个分布是理论上假设的分布,通常是一个已知的分布。

在QQ图中,横轴表示理论分布的分位数,纵轴表示观测数据的分位数。如果观测数据与理论分布完全相似,那么绘制的点将近似地落在一条直线上。

通过观察QQ图中的点的偏离程度,我们可以判断观测数据与理论分布之间的分布相似性。如果点的分布大致沿着一条直线,并且与理论分布的分位数一致,那么可以认为观测数据与理论分布较为相似。反之,如果点的分布明显偏离直线,就表示观测数据与理论分布存在差异。

KS Plot

数据科学家95%的时间都在使用的11个基本图表

KS图(KS Plot)是一种用于评估分布差异的可视化工具。通过绘制KS图,我们可以直观地观察到两个分布之间的差异程度。通常情况下,KS图会显示两个CDF曲线之间的距离随着阈值的变化而变化的情况。当距离较小时,说明两个分布趋于接近,而当距离较大时,表示两个分布之间存在较大的差异。

因此,KS图也被定义为一种用于确定分布差异的“统计检验”。

SHAP Plot

数据科学家95%的时间都在使用的11个基本图表

SHAP图(SHAP Plot)通过考虑特征之间的交互和依赖关系,总结了模型对预测的特征重要性。它是一种常用的可视化工具,用于解释机器学习模型的预测结果。

SHAP图基于博弈论的方法,解释模型对每个特征的贡献程度,展示了每个特征对模型预测结果的影响程度,以及特征值的高低如何影响整体输出结果。

Cumulative ExplAIned Variance Plot

数据科学家95%的时间都在使用的11个基本图表

累计解释方差图(Cumulative Explained Variance Plot)有助于确定在主成分分析(PCA)过程中可以将数据缩减到的维度数,同时保留最大的方差。

在绘制累计解释方差图时,横轴表示主成分的数量,纵轴表示解释的方差的累积比例。通过观察图上的曲线,我们可以确定在保留足够的方差的前提下,可以将数据缩减到的维度数。

通常情况下,曲线开始的部分会很陡峭,表明前几个主成分解释了较大的方差。随着维度的增加,曲线的斜率逐渐变缓,表示新增的主成分对方差的贡献较小。

通过观察累计解释方差图,我们可以选择保留累积方差较大部分的主成分数量作为数据降维的目标维度数。一般来说,我们会选择保留累计方差达到一定阈值(例如93%)的主成分数量,以保留尽可能多的信息。

Elbow Curve

数据科学家95%的时间都在使用的11个基本图表

肘部曲线(Elbow Curve)有助于确定k均值算法的最佳簇数。

肘部曲线通过绘制不同k值下的簇内平方和(Within-Cluster Sum of Squares,Wcss)的变化情况来评估聚类的效果。WCSS表示每个数据点与其所属簇中心之间的距离的平方和。肘部曲线的横轴表示k值,纵轴表示WCSS。

当k值较小时,每个簇中的数据点与簇中心的距离通常较小,WCSS较低。随着k值的增加,每个簇中的数据点与簇中心的距离可能会增加,导致WCSS增加。当k值增加到一定程度时,每个额外的簇可能只会为数据点添加很少的附加信息,而WCSS的改进幅度会减小。

肘部曲线的核心思想是选择WCSS变化率陡降的点,通常是曲线出现“拐点”或形成“肘部”的位置。这个点所对应的k值被认为是最佳簇数。

Silhouette Curve

数据科学家95%的时间都在使用的11个基本图表

轮廓曲线(Silhouette Curve)通过绘制不同簇数下的轮廓系数来评估聚类的效果。轮廓系数的取值范围为[-1,1],其中较高的值表示样本在其所属簇中更紧密,且与其他簇之间的分离度更高。

通过观察轮廓曲线,我们可以找到轮廓系数最大的点,这个点对应的簇数即为最佳簇数。当轮廓系数达到最大值时,表示聚类效果较好,样本在其所属簇中更紧密,并且与其他簇之间的分离度更高。

相比于肘部曲线,在有大量簇的情况下,轮廓曲线通常更有效。它能够更准确地评估聚类质量,并帮助我们选择最佳的簇数。

Gini-Impurity and Entropy

数据科学家95%的时间都在使用的11个基本图表

基尼不纯度和熵(Gini-Impurity and Entropy)是用于衡量数据集的混乱程度或不确定性的指标。基尼不纯度的计算基于每个类别在数据集中的比例,如果数据集完全由同一类别组成,则基尼不纯度为0。 熵的计算基于每个类别在数据集中的比例,如果数据集中的每个类别都均匀分布,则熵最大。

在决策树的构建过程中,我们可以根据基尼不纯度或熵来选择最佳的分割点。当基尼不纯度或熵越低时,表示分割点能够更好地将数据集分成纯净的子集,这样的分割点通常被认为是更好的选择。然而,基尼不纯度和熵之间存在一种权衡关系,选择哪种指标取决于具体的应用和数据集特征。

Bias-Variance Tradeoff

数据科学家95%的时间都在使用的11个基本图表

Bias-variance tradeoff是在模型复杂性与偏差和方差之间寻找合适平衡的概念。

在机器学习中,模型的偏差(bias)是指模型在训练集上的预测结果与真实值的偏离程度。偏差较高意味着模型对训练集的拟合不足,无法捕捉到数据中的复杂关系,导致欠拟合。

而方差(variance)是指模型在不同训练集上的预测结果的变化程度。方差较高意味着模型过于敏感于训练集的细节,过度拟合了训练集的噪声和随机性,导致泛化能力较差。

在模型的复杂性方面,较简单的模型通常具有较高的偏差和较低的方差,而较复杂的模型通常具有较低的偏差和较高的方差。

Bias-variance tradeoff的目标是找到适当的模型复杂性,以在偏差和方差之间取得平衡。如果模型过于简单,偏差会很高,而方差较低;如果模型过于复杂,偏差会较低,但方差会较高。为了获得较好的泛化性能,我们需要在这两者之间找到一个合适的平衡点。

Partial Dependency Plots

数据科学家95%的时间都在使用的11个基本图表

Partial Dependency Plots用于描述目标变量和特征之间的依赖关系。

一维图(1-way PDP)显示了目标变量与一个特征之间的关系。通过这个图可以看出,当某个特征的取值发生变化时,目标变量的取值如何相应地变化。

二维图(2-way PDP)显示了目标变量与两个特征之间的关系。通过这个图可以观察到,当两个特征的取值同时变化时,目标变量的取值如何相应地变化。

在最左边的图中,温度的增加通常会导致目标值较高。这表示温度对目标变量有正向影响,也就是说,当温度增加时,目标值往往会增加。



Tags:数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: 数据  点击:(6)  评论:(0)  加入收藏
国家数据局首次召开全国性工作会议 释放哪些信号?
数据工作不仅事关经济社会发展、人们生产生活,也关乎国家发展与安全大局,其重要性不言而喻。我国是数据生产和应用大国,也是世界上首个提出数据要素理论的国家。正因为此,全国数...【详细内容】
2024-04-07  Search: 数据  点击:(3)  评论:(0)  加入收藏
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  Search: 数据  点击:(4)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02  Search: 数据  点击:(7)  评论:(0)  加入收藏
数据可视化在网络安全中的关键作用
在当今数字化时代,网络安全已成为各大企业乃至国家安全的重要组成部分。随着网络攻击的日益复杂和隐蔽,传统的网络安全防护措施已难以满足需求,急需新型的解决方案以增强网络防...【详细内容】
2024-03-29  Search: 数据  点击:(19)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28  Search: 数据  点击:(13)  评论:(0)  加入收藏
京东小程序数据中心架构设计与最佳实践
一、京东小程序是什么京东小程序平台能够提供开放、安全的产品,成为品牌开发者链接京东内部核心产品的桥梁,致力于服务每一个信任我们的外部开发者,为不同开发能力的品牌商家提...【详细内容】
2024-03-27  Search: 数据  点击:(9)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  Search: 数据  点击:(12)  评论:(0)  加入收藏
Google搜索引擎索引的网页数量有多少?谷歌官方提供数据进行参考
Google搜索引擎索引的网页数量有多少?二十世纪九十年代,网页的索引数量成了一个各大搜索引擎相互对比的指标。小编记得2000年谷歌搜索引擎的首页搜索框上方,还标记着谷歌索引的...【详细内容】
2024-03-27  Search: 数据  点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  Search: 数据  点击:(6)  评论:(0)  加入收藏
▌简易百科推荐
云计算和边缘计算
云计算和边缘计算是两种不同的计算模型,它们各有特点,适用于不同的场景和需求。云计算是一种基于互联网的计算模型,它将计算资源、存储资源和应用服务集中在云端,用户可以通过网...【详细内容】
2024-03-01    简易百科  Tags:云计算   点击:(28)  评论:(0)  加入收藏
云计算与边缘计算:有何不同?
公共云计算平台可以帮助企业充分利用全球服务器来增强其私有数据中心。这使得基础设施能够扩展到任何位置,并有助于计算资源的灵活扩展。混合公共-私有云为企业计算应用程序...【详细内容】
2024-02-28  通信产品推荐官    Tags:云计算   点击:(21)  评论:(0)  加入收藏
量子计算机是什么?跟现在的计算机相比优缺点是什么?
量子计算机是什么?跟现在的计算机相比优缺点是什么? 随着科技的不断发展,计算机技术也取得了巨大的进步。然而,随着摩尔定律的趋近于极限,传统的计算机技术面临着许多挑战。这时...【详细内容】
2024-02-23    简易百科  Tags:量子计算机   点击:(36)  评论:(0)  加入收藏
量子计算机:未来电脑的革命性技术
在科技的广袤天空中,量子计算机如一颗璀璨的新星,以其独特的光芒预示着未来电脑的革命性变革。这项令人瞩目的技术不仅代表着计算机科学的最前沿,更承载着人类对于速度和效率的...【详细内容】
2024-02-23  小浩长得帅    Tags:量子计算机   点击:(40)  评论:(0)  加入收藏
为什么计算机需要十六进制?
今天简单聊聊十六进制。实际上计算机本身是不需要十六进制的,计算机只需要二进制,需要十六进制的是人。每个十六进制中的数字代表4个比特,你可以非常直观的从十六进制中知道对...【详细内容】
2024-02-22  码农的荒岛求生  微信公众号  Tags:计算机   点击:(47)  评论:(0)  加入收藏
多模态RAG应用:跨越文本与图片的智能交互
近年来,多模态RAG(Retrieval-AugmentedGeneration)应用的兴起引发了人们对人工智能技术发展方向的广泛关注。传统的RAG应用主要基于文本的输入和输出,而随着GPT4-V的发布,多模态R...【详细内容】
2024-01-29  况成放    Tags:多模态RAG   点击:(64)  评论:(0)  加入收藏
量子计算机真相揭秘,一篇文章颠覆你的认知
你看过《三体》吗?在刘慈欣笔下,三体人用一种叫“智子”的黑科技干扰了人类的实验,从而锁死了人类的技术。而在现实世界,一把无形的“锁”其实也悄然逼近了我们,它就是芯片。随着...【详细内容】
2024-01-23  天才简史  今日头条  Tags:量子计算机   点击:(25)  评论:(0)  加入收藏
生成对抗网络(GAN)在计算机视觉领域中的应用
生成对抗网络(GAN)是一种在计算机视觉领域中广泛应用的深度学习模型。它由一个生成器网络和一个判别器网络组成,通过对抗训练的方式实现图像的生成和判别。GAN在计算机视觉中的...【详细内容】
2024-01-15  数码小风向    Tags:生成对抗网络   点击:(71)  评论:(0)  加入收藏
如何免费生成logo?
Logo设计对于一个品牌来说非常重要,它是品牌的身份标识,可以帮助人们迅速识别和记住一个品牌。同时还可以帮助建立品牌认知度,传达出品牌的专业形象。无论是大公司还是刚起步的...【详细内容】
2024-01-05  阳仔问文    Tags:logo   点击:(85)  评论:(0)  加入收藏
自然语言处理中的句法分析方法研究与实现
自然语言处理(NLP)中的句法分析方法是NLP领域的重要研究内容之一,它旨在通过对句子结构的分析和理解,揭示句子中单词之间的语法关系,为后续的语义理解和信息提取提供基础支撑。本...【详细内容】
2024-01-04  毛晓峰    Tags:自然语言处理   点击:(55)  评论:(0)  加入收藏
站内最新
站内热门
站内头条