您当前的位置:首页 > 互联网百科 > 大数据

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

时间:2020-06-16 12:04:30  来源:  作者:

老海分享了关数据分析工具选择的理解和建议,而今天,老海想回到实际操作角度来聊聊。

作为​数据分析师,我们日常工作中使用的最多自然是SQL查询,是真正的“金刚钻”本领

通常包括了Spark SQL、Hive SQL、MySQL等等,我们主要通过它们提取数据库中的数据记录。

而在处理一些外部数据时,如TXT文本数据、CSV日志数据等,SQL没有Excel或者Python来的灵活。

如果需要把数据进行报表化、可视化,我们又会偏向使用PowerBI或者Tableau这类商业BI工具。

 

 

这些工具之间的设计思路、运行原理、编写语法、操作步骤等等,的确存在着很大不同点。

但是它们又有着最大的共同点:必须围绕我们的目标需求来执行,否则再强的工具也毫无意义而言了。

比如你要筛选出天津市的销售订单,你无论用何种工具方法,都得把订单给找出来,整别的都没用的!

所以,在解决问题这点上,它们没有不同,更没有强弱之分。

选择分析工具,不是看谁功能多,而是看谁能解决问题!

面对同一目标,四大数据分析工具都是如何操作的呢?

实际工作中,我们经常在不同工具间来回切换,或者同时配合使用几种工具

因此我们总是需要不断记忆和搜索相关的操作步骤,这是一个很繁琐又浪费时间的过程。

为了彻底解决这个问题,本次老海把四个工具放在一起,同步横向对比:

在相同目标要求下,Excel、MySQL、Power BI、Python 四大数据分析工具的操作要点

比如:筛选出天津市的销售订单,这四种工具各自都是如何具体操作的,尽量做到一目了然!

 

 

与某种工具的深度文章不同,此次主要是常见步骤的操作对比,是操作方法的大集合。

本次内容由老海独家编辑整理,整个过程相当耗时,由于内容较多,计划分为上中下三篇完成。

感兴趣的朋友,可以关注我,收藏文章方便后期查找。

OK,我们下面来同步对比这些工具操作情况:

演示工具版本环境:

OFFCIE2013或2016,

MYSQL8.0以上,

Python3.7,

PowerBI 2020年5月版本

案例模拟数据情况:

本次依旧使用之前的模拟数据,与业务无关,仅供演示:

以下是涉及的表结构,共6张数据表,本文中主要涉及销售数据表、产品表、顾客信息表

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

数据实例,如下图所示:

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 


Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 


Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

数据集相对比较简单,容易理解。

OK,接下来,我们将按数据预处理的基本流程开始操作演示:

数据准备和导入

当使用Excel时:

  • 没啥说的,直接打开xlsx或者xls文件即可。
  • 打开速度与你自己的电脑配置直接相关,同样的配置情况下,笔记本的打开速度要大打折扣。
  • 经常玩EXCEL数据比较大的同学,老海建议你上个台式机吧,速度快还稳定,特别爽。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

特别注意:Excel本身有数据记录的数量限制,如果你的数据量很大,使用EXCEL文件类型,可能会造成数据读取不全,以及各种卡顿报错。

所以当数据量够大的时候,建议直接更换其他工具,请不要在Excel上一路走黑。

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

当使用MySQL时:

我们一般可连接数据库后台,添加公司的主机、账户密码登录即可,一般公司局域网内使用

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

特别提示:MySQL8.0以后,登录密码编码类型发生了变化,可能出现报错

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

一般需要先启动MySQL服务:

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

设置密码、修改密码编码方式、刷新服务,三个步骤来解决

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第一步:OK,这里我们使用本地搭建的环境,采用人工数据导入的方式
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第二步:选择相应的数据文件类型,一般为XLS、XLSX、CSV、TXT、JSON等等。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第三步:然后我们选择数据源里的具体表格,比如这里我们选择了6个表格
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第四步:设置数据字段名称行,一般都是第一行
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第五步:可以设置导入后表名,这里为了方便演示,就不再调整了。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第六步:同样可以设置导入表中的字段名称,这里老海不再调整。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第七步:然后选择导入模式,是添加、更新、还是复制,这里我们同样选择默认。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第八步:点击“开始”按钮,数据不大的话,很快就完成了。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

特别注意:当提示成功导入后,记得点击“关闭”,而不是“开始”,不然又会重新导入

Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

此时我们可以看到数据表已经导入成功了,还可以打开数据表看一下是否显示正常。

当使用Power BI时:

  • 第一步:我们打开PowerBI,选择“获取数据”,选择“常见数据源”中的Excel
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第二步:然后选择,需要导入的数据表,这里演示选择了6个表格导入到数据模型里
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第三步:我们可以看到数据表里面具体的数据字段情况,检查是否显示正常。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

特别注意:PowerBI导入多个数据表格后,会自动选择字段进行表格关联,但这种关联不一定是你实际业务的情况。

你要根据业务工作的实际情况来确定字段是否合理,关联方式是否合理,比如是左连接、还是右连接等等。

使用Python:

  • 第一步:我们先引入必要的pandas、numpy、sys等包,查看运行环境
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第二步:然后设定好我们的工作路径,这里是根据我们自己的情况来自行设置的。
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

  • 第三步:最后我们引入需要处理的数据源
Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

 

特别注意:当我们使用pandas读取Excel表格数据时,默认会只读取第1个sheet,因此当需要读取特定的sheet时,请通过参数来指定完成。

另外pandas的读取速度,与数据文件的大小、以及你自己设备的内存直接相关,当数据文件很大,比如10G,一般会受到你设备内存大小的影响,读取速度变慢,此时考虑分批读取或者使用SQL在服务器上处理。

OK,以上就是关于模拟数据背景、以及数据准备与导入的内容。

 

 

限于篇幅,上篇先介绍到这里,欢迎后续后续的2篇内容,涉及数据查看与筛选、更新与删除、分组聚合、多表关联、多表联合、排序与分组、存储与导出等操作。

本系列文章内容较长,建议随手收藏下来,相信总有需要的时候!

 



Tags:数据工具   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
老海分享了关数据分析工具选择的理解和建议,而今天,老海想回到实际操作角度来聊聊。作为​数据分析师,我们日常工作中使用的最多自然是SQL查询,是真正的“金刚钻”本领。通常包...【详细内容】
2020-06-16  Tags: 数据工具  点击:(1754)  评论:(0)  加入收藏
▌简易百科推荐
前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】
2021-12-28  linyb极客之路    Tags:数据脱敏   点击:(2)  评论:(0)  加入收藏
张欣安科瑞电气股份有限公司 上海嘉定 201801 摘要:随着电力行业各系统接入,海量数据涌现,如何利用电网信息化中大量数据,对客户需求进行判断分析,服务于营销链条,提升企业市场竞...【详细内容】
2021-12-14  安科瑞张欣    Tags:大数据   点击:(10)  评论:(0)  加入收藏
1、什么是数据分析结合分析工具,运用数据分析思维,分析庞杂数据信息,为业务赋能。 2、数据分析师工作的核心流程:(1)界定问题:明确具体问题是什么;●what 发生了什么(是什么)●why 为...【详细内容】
2021-12-01  逆风北极光    Tags:大数据   点击:(26)  评论:(0)  加入收藏
在实际工作中,我们经常需要整理各个业务部门发来的数据。不仅分散,而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间,更不用说还要把有效的数据收集...【详细内容】
2021-11-30  百数    Tags:数据   点击:(21)  评论:(0)  加入收藏
数据作为新的生产要素,其蕴含的价值日益凸显,而安全问题却愈发突出。密码技术,是实现数据安全最经济、最有效、最可靠的手段,对数据进行加密,并结合有效的密钥保护手段,可在开放环...【详细内容】
2021-11-26  炼石网络    Tags:数据存储   点击:(17)  评论:(0)  加入收藏
导读:网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】
2021-11-26  DataFunTalk    Tags:大数据   点击:(15)  评论:(0)  加入收藏
导读:数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法,从数据中获取与挖掘项目相关的知识。作者:赵仁乾 田建中 叶本华 常国珍来源:华章科技数据挖掘是一...【详细内容】
2021-11-23  华章科技  今日头条  Tags:数据挖掘   点击:(20)  评论:(0)  加入收藏
今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式,后端架构设计采用微服务架构模式。 前端技术:Angularjs、Jq...【详细内容】
2021-11-04  web前端进阶    Tags:DashboardClient   点击:(40)  评论:(0)  加入收藏
在Kubernetes已经成了事实上的容器编排标准之下,微服务的部署变得非常容易。但随着微服务规模的扩大,服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性(obs...【详细内容】
2021-11-02  大数据推荐杂谈    Tags:Prometheus   点击:(40)  评论:(0)  加入收藏
同一产品对老客户的要价竟然比新客户要高?这是当下“大数据杀熟”的直接结果。近年来,随着平台经济的蓬勃发展,大数据在为用户服务之外,也引发了多种不合理现象。为了有效遏制“...【详细内容】
2021-10-29    海外网   Tags:大数据   点击:(31)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条