您当前的位置:首页 > 互联网百科 > 大数据

用于数据分析的8个SQL技术

时间:2020-07-27 12:54:41  来源:  作者:

介绍

SQL是数据科学专业人员军械库中的一个关键齿轮。这是经验之谈,如果你还没有学会SQL,你就不能指望在分析或数据科学领域取得成功。

为什么SQL如此重要?

随着我们进入新的十年,我们生产和消费数据的速度正在一天一天的飙升。

为了根据数据做出明智的决策,世界各地的组织都在聘请数据专业人士,如业务分析师和数据科学家,从海量的数据宝库中挖掘信息。

其中一个最重要的工具就是SQL!

用于数据分析的8个SQL技术

 

结构化查询语言(SQL)已经存在了几十年。它是一种编程语言,用于管理关系数据库中保存的数据。

世界各地的大多数大公司都在使用SQL。数据分析员可以使用SQL访问、读取、操作和分析数据库中存储的数据,并生成有用的信息,以推动明智的决策过程。

在本文中,我将讨论8种SQL技术,这些技术将使你为任何高级数据分析问题做好准备。请记住,本文假设你对SQL有非常基本的了解。

目录

  • 了解数据集
  • SQL技术1:计算行和项
  • SQL技术2:聚合函数
  • SQL技术3:极值识别
  • SQL技术4:数据切片
  • SQL技术5:限制数据
  • SQL技术6:数据排序
  • SQL技术7:过滤模式
  • SQL技术8:分组、汇总数据和分组过滤

了解数据集

学习数据分析的最好方法是什么?通过在一个数据集上执行它!

为此,我创建了一个零售商店的虚拟数据集。客户数据表由ConsumerDetails表示。

我们的数据集由以下列组成:

  • Name –消费者的名称
  • Locality –客户所在地
  • Total_amt_spend –消费者在商店中花费的总金额
  • Industry –它表示消费者所属的行业

注:我们将使用MySQL5.7进行实验。你可以从这里下载

https://dev.mysql.com/downloads/mysql/5.7.html

用于数据分析的8个SQL技术

 

SQL技术1–计算行和项

Count函数

我们将从最简单的查询开始分析,即计算表中的行数。我们将使用函数COUNT()来完成此操作。

用于数据分析的8个SQL技术

 

太好了!现在我们知道表中的行数是10。在一个小的测试数据集上使用这个函数似乎没用。但是当你的行数达到数百万时,它会有很大的帮助!

Distinct函数

很多时候,我们的数据表中充满了重复的值。为了获得独一的值,我们使用了不同的函数。

在我们的数据集中,我们如何找到客户所属的行业?

你猜对了。我们可以通过使用DISTINCT函数来实现这一点。

用于数据分析的8个SQL技术

 

你甚至可以使用count和distinct一起计算唯一行的数量。你可以参考以下查询:

用于数据分析的8个SQL技术

 

SQL技术2–聚合函数

聚合函数是任何数据分析的基础。它们为我们提供了数据集的概述。我们将讨论的一些函数是–SUM()、AVG()和STDDEV()。

SUM函数

我们使用SUM()函数计算表中数值列的和。

我们来计算一下每位顾客的消费总额:

用于数据分析的8个SQL技术

 

在上面的例子中,sum_all是存储sum值的变量。消费者的消费总额是12560卢比。

AVG函数

AVG()函数计算平均值。让我们找出消费者对我们零售店的平均支出:

用于数据分析的8个SQL技术

 

顾客在零售店的平均消费额为1256卢比。

STDDEV函数

如果你查看了数据集,然后查看了消费者的平均支出值,你会发现有些东西遗漏了。平均值并不能提供完整的理解,所以让我们找到另一个重要的指标——标准差。函数为STDDEV()。

用于数据分析的8个SQL技术

 

标准差为829.7,这意味着消费者的支出之间存在很大差距!

SQL技术3–极值识别

下一种类型的分析是确定极值,这将有助于你更好地理解数据。

Max函数

可以使用MAX()函数标识最大数值。让我们看看如何应用它:

用于数据分析的8个SQL技术

 

消费者在零售店的最高消费额是3000卢比。

Min函数

与max函数类似,我们有MIN()函数来标识给定列中的最小数值:

用于数据分析的8个SQL技术

 

零售店消费者的最低消费额是350卢比。

SQL技术4–数据切片

现在,让我们关注数据分析中最重要的部分之一——数据切片。分析的这一部分将构成高级查询的基础,并帮助你根据某种条件检索数据。

  • 假设零售店希望找到来自某个地方的客户,特别是Shakti Nagar和Shanti Vihar地区。
用于数据分析的8个SQL技术

 

太好了,我们有3个客户!我们使用WHERE子句根据消费者应该居住在当地的条件筛选出数据—Shakti Nagar和Shanti Vihar。

我没有在这里使用OR条件。相反,我使用了IN运算符,它允许我们在WHERE子句中指定多个值。

  • 我们需要找到那些居住在特定地区(Shakti Nagar和Shanti Vihar)且消费金额超过2000卢比的客户。
用于数据分析的8个SQL技术

 

在我们的数据集中,只有Shantanu和Natasha满足这些条件。由于这两个条件都需要满足,所以和条件更适合这里。让我们看看另一个例子。

  • 这一次,零售店希望找回所有消费在1000卢比到2000卢比之间的消费者,以便推出特别的营销优惠。
用于数据分析的8个SQL技术

 

另一种写同样语句的方法是:

用于数据分析的8个SQL技术

 

只有Rohan在满足这个标准!

太好了!我们已经走到一半了。让我们在迄今所获得的知识基础上再接再厉。

SQL技术5–限制数据

Limit

假设我们要查看由数百万条记录组成的数据表。我们不能直接使用SELECT语句,因为这会将整个表转储到我们的屏幕上,这既麻烦又计算密集。我们可以使用Limit:

用于数据分析的8个SQL技术

 

上面的SQL命令帮助我们显示表的前5行。

OFFSET

如果你只想选择第四行和第五行,你会怎么做?我们将使用OFFSET。OFFSET将跳过指定的行数。让我们看看它是如何工作的:

用于数据分析的8个SQL技术

 

SQL技术6–数据排序

对数据进行分类有助于我们对数据进行观察。我们可以使用关键字ORDER by来执行排序过程。

ORDER BY

关键字可用于按升序或降序对数据进行排序。默认情况下,ORDER BY关键字按升序对数据排序。

让我们看一个示例,其中我们根据Total_amt_spend列按升序对数据进行排序:

用于数据分析的8个SQL技术

 

要将数据集按降序排序,可以按照以下命令进行操作:

用于数据分析的8个SQL技术

 

SQL技术7–过滤模式

在前面的部分中,我们学习了如何根据一个或多个条件过滤数据。在这里,我们将学习匹配指定的模式列。为此,我们将首先了解LIKE运算符和通配符。

LIKE

LIKE在WHERE子句中用于搜索列中的指定模式。

通配符

通配符用于替换字符串中的一个或多个字符。它们与LIKE运算符一起使用。最常见的两个通配符是:

  • %,表示0个或更多个字符
  • _,它代表一个字符

在我们的虚拟零售数据集中,假设我们想要所有以“Nagar”结尾的地区。花点时间来理解问题陈述,并思考如何解决这个问题。

让我们试着把这个问题分解一下。我们需要以“Nagar”结尾的所有位置,并且在这个特定字符串之前可以有任意数量的字符。因此,我们可以在“Nagar”之前使用“%”通配符:

用于数据分析的8个SQL技术

 

太棒了,我们有6个地方以这个名字结尾。注意,我们使用LIKE操作符来执行模式匹配。

接下来,我们将尝试解决另一个基于模式的问题。我们需要第二个字符在他们各自的名字中有“a”的消费者的名字。

再一次,我建议你花点时间来理解这个问题,并想出一个解决它的逻辑。

让我们把问题分解一下。这里,第二个字符需要是“a”。第一个字符可以是任何字符,所以我们用通配符_。

在第二个字符之后,可以有任意数量的字符,因此我们将这些字符替换为通配符“%”。最终的模式匹配如下所示:

用于数据分析的8个SQL技术

 

我们有6个人满足了这个条件。

SQL技术8–分组、汇总数据和分组筛选

我们终于到了SQL中最强大的分析工具之一,使用GROUP BY语句对数据进行分组。

这个语句最有用的应用是寻找分类变量的分布。这是通过使用GROUPBY语句和聚合函数(如–COUNT、SUM、AVG等)来完成的。

让我们用一个问题陈述来更好地理解这一点。零售商店希望找到与其所属行业对应的客户数量:

用于数据分析的8个SQL技术

 

我们注意到,属于不同行业的客户数量或多或少是相同的。因此,让我们改成根据客户所属行业分组,计算出他们的支出总额:

用于数据分析的8个SQL技术

 

我们可以观察到,消费金额最大的是属于制造业的客户。这看起来有点容易,对吧?让我们继续更改要求,让它变得更复杂。

现在,零售商希望找到总销售额大于2500的行业。为了解决这个问题,我们将再次根据行业数据进行分组,然后使用HAVING子句。

HAVING

HAVING子句与WHERE子句类似,但仅用于过滤分组的数据。记住,它总是在group by语句之后。

用于数据分析的8个SQL技术

 

我们只有3个类别满足条件-航空,国防和制造业。但为了更清楚,我还将添加ORDER BY关键字,使其更直观:

用于数据分析的8个SQL技术

 

结尾

我很高兴你做到了。这些是SQL中所有数据分析查询的构建知识。你还可以使用这些基础知识来进行高级查询。在本文中,我使用了MySQL 5.7来建立示例。

我希望这些SQL查询能够帮助你分析复杂数据的日常生活。



Tags:SQL技术   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
SQL数据库语言 1.数据定义语言(CREATE,ALTER,DROP,DECLARE) 2.数据操纵语言(SELECT,DELETE,UPDATE,INSERT) 3.数据控制语言(GRANT,REVOKE,COMMIT,ROLLBACK)创建数据库create...【详细内容】
2020-08-31  Tags: SQL技术  点击:(61)  评论:(0)  加入收藏
介绍SQL是数据科学专业人员军械库中的一个关键齿轮。这是经验之谈,如果你还没有学会SQL,你就不能指望在分析或数据科学领域取得成功。为什么SQL如此重要?随着我们进入新的十年,...【详细内容】
2020-07-27  Tags: SQL技术  点击:(83)  评论:(0)  加入收藏
▌简易百科推荐
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(9)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(25)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(39)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
本人03年开始从事贸易行业,多年来一直致力于外贸获客和跨境电商选品等领域,最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事?大家看到数据时关注的有产品、采购...【详细内容】
2021-10-28  QD云龙    Tags:数据   点击:(33)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条