Power Query 网络抓取概括性总结

时间：2020-08-12 10:24:16 来源：作者：

这一段时间写了很多篇网络抓取方面的文章，很多网友可能对网络抓取还有疑虑，是不是游走法律边缘，担心跨省。其实我们用Power Query进行的网络抓取行为，大部分都是正常的数据收集工作，我们并没有突破防御从后台下载数据，那些都是黑客做的事情。Power Query网络抓取，都是通过正常的网页访问来获取数据，只是比起手工翻页稍微自动化了一些。

数据类型

如果从抓取的数据类型的角度来区分，我们分为两大类：

网页：文本格式的页面内容，从中提取表格或文本
数据：主要是json格式的数据，如果你有数据库的账户和密码，Power Query也有对应的数据库接口，获取数据也是很方便的。

抓取步骤

如果从抓取步骤来分类也是两步：

为什么不是我们经常说的四步变成两步了？

这里所说的步骤单指我们M函数在网络抓取中的步骤。

第一步：抓取网页内容，都是Contents，结尾的M函数

第二步：分析网页内容，对第一步抓取过来的网页内容进行解析，文本、json、xml、csv、表格等等。

我们在之前的网络抓取文章中很少提到具体的函数，因为大部分的网络抓取函数应用，都是Power Query自动给我们生成，回过头来看看，就是我们现在看到的这个样子。

所以说，网络抓取两大核心工作：

内容抓取是建立在网站分析的基础之上；
内容呈现是选择合适的方式对网页内容解析，并作适当的格式处理。

M函数

我们常用到的函数组合：

这里简单说一下：

Web.BrowserContents返回的是文本格式，可以直接用Text类函数来处理，也可以用其他几种数据格式来解析。
Web.Contents返回的是二进制格式，用数据格式解析
AzureStorage.BlobContents返回的也是二进制格式，BLOB(binary large object)这个我也是在做COVID-19数据抓取时才注意到的，我们就理解为附件吧，图中的url直接就是一个文件的地址，在网络抓取需要直接读取附件内容时可以考虑使用这个函数。

综上所诉，Power Query网络抓取并不是很复杂，复杂的是网站千奇百怪，各有各的不同，所以我们要做好网站分析，不断尝试，总会找到办法的。

Tags：Power Query 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Power Query 获取东方财富网个股K线数据

前面我们讲过东方财富网获取全部实时股票数据，今天来做一个个股的K线数据获取。获取个股数据首先要有股票代码，然后根据代码来获取，这个和我们浏览网页的顺序差不多，比如我们先...【详细内容】

2021-05-12　　Tags: Power Query 点击:(403)　　评论:(0)　　加入收藏

Power Query 网络抓取概括性总结

这一段时间写了很多篇网络抓取方面的文章，很多网友可能对网络抓取还有疑虑，是不是游走法律边缘，担心跨省。其实我们用Power Query进行的网络抓取行为，大部分都是正常的数据收集...【详细内容】

2020-08-12　　Tags: Power Query 点击:(117)　　评论:(0)　　加入收藏

▌简易百科推荐

shell练习之获取本机ip地址、网关、dns信息

写一个shell获取本机ip地址、网关地址以及dns信息。经常会遇到取本机ip、网关、dns地址，windows一个命令ipconfig /all全部获取到，但linux系统却并非如此。linux系统都自带ifc...【详细内容】

2021-12-27　　K佬食古　　　　Tags:shell 　点击:(1)　　评论:(0)　　加入收藏

Centos6下网卡启动、配置ifcfg-eth0教程

步骤1、配置 /etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情：[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifc...【详细内容】

2021-12-24　　忆梦如风　　　　Tags:网卡　点击:(9)　　评论:(0)　　加入收藏

运维需要掌握的 17 个实用技巧

1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录find . -name “*.tar” -execmv {}./backup/ ;注解：find –name 主要用于查找某个文件名字，-exec 、xargs可...【详细内容】

2021-12-17　　郭主任　　　　Tags:运维　点击:(19)　　评论:(0)　　加入收藏

电脑有网络但网页无法打开是什么原因，电脑网友打不开怎么解决

对于经常上网的朋友来说，除了手机购物上网，pc端玩网页游戏还是很多小伙伴首选的，但是有时候明明宽带链接上了，打开浏览器却出现上不了网的现象，下面小编要来跟大家说说电脑有网络...【详细内容】

2021-12-16　　小白系统　　　　Tags:网页无法打开　点击:(28)　　评论:(0)　　加入收藏

访问外网很慢，怎么办？

在访问像github、gitlab这样的外国网站时，很有可能会出现页面加载不出来或找不到页面的错误。这时候有的朋友就会以为是网络的问题，于是把Wifi断掉连上自己手机的热点，结果却还...【详细内容】

2021-12-15　　启施技术IT狼叔　　　　Tags:外网　点击:(14)　　评论:(0)　　加入收藏

PHP&Python获取当前网络外网ip地址

网络地址来源：获取公网IP地址 https://ipip.yy.com/get_ip_info.phphttp://pv.sohu.com/cityjson?ie=utf-8http://www.ip168.com/json.do?view=myipaddress...【详细内容】

2021-12-15　　韦廷华12　　　　Tags:外网ip 　点击:(14)　　评论:(0)　　加入收藏

交换机与本地计算机FTP服务端之间的文件互传功能

准备好软件IPOP、用ENSP模拟一下华为交换机启动交换机 <Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sysname FTPClient[FTPClient]interface vla...【详细内容】

2021-12-15　　思源Edward　　　　Tags:交换机　点击:(22)　　评论:(0)　　加入收藏

shell练习之分析netstat结果

我们经常用到netstat命令查看主机连接状况，包括连接ip、端口、状态等，今天就练习下shell分析netsat结果。描述假设netstat命令运行的结果我们存储在nowcoder.txt里，格式如下：Pro...【详细内容】

2021-12-14　　K佬食古　　　　Tags:netstat 　点击:(19)　　评论:(0)　　加入收藏

一文带你搞定TCP滑动窗口

什么是滑动窗口？窗口是操作系统开辟的一块缓存空间，发送方在收到接收方ACK应答之前，必须在缓冲区保留已发送的数据，如果按期收到确认应答，数据就可以从缓冲区移除。什么是滑动窗...【详细内容】

2021-12-14　　DifferentJava　　　　Tags:TCP 　点击:(28)　　评论:(0)　　加入收藏

清除华为路由交换设备console登录密码

概述日常管理华为路由设备过程中，难为会忘记设备登录密码，那么该如何重置设备登录密码吗？本期文章将全面向各位小伙伴总结分享。重置华为设备登录密码思路先行采用console登录...【详细内容】

2021-12-10　　onme0　　　　Tags: 　点击:(27)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

无相关信息