您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

用 Java 拿下 HTML，分分钟写个小爬虫

时间：2020-09-08 16:58:51 来源：作者：

+ 加入收藏

作者 | HelloGitHub-秦人

来源 | HelloGitHub（ID：GitHub520）

HelloGitHub 推出的《讲解开源项目》系列，今天给大家带来一款开源 JAVA 版一款网页元素解析框架——jsoup，通过程序自动获取网页数据。

项目源码地址：https://github.com/jhy/jsoup

项目介绍

jsoup 是一款 Java 的 html 解析器。可直接解析某个 URL 地址的 HTML 文本内容。它提供了一套很省力的 API，可通过 DOM、css 以及类似于 jQuery 选择器的操作方法来取出和操作数据。

jsoup 主要功能：

从一个 URL、文件或字符串中解析 HTML。
使用 DOM 或 CSS 选择器来查找、取出数据。
可操作 HTML 元素、属性、文本。

使用框架

2.1 准备工作

掌握 HTML 语法
Chrome 浏览器调试技巧
掌握开发工具 idea 的基本操作

2.2 学习源码

将项目导入 idea 开发工具，会自动下载 maven 项目需要的依赖。源码的项目结构如下：

快速学习源码是每个程序员必备的技能，我总结了以下几点：

阅读项目 ReadMe 文件，可以快速知道项目是做什么的。
概览项目 pom.xml 文件，了解项目引用了哪些依赖。
查看项目结构、源码目录、测试用例目录，好的项目结构清晰，层次明确。
运行测试用例，快速体验项目。

2.3 下载项目

git clone https://github.com/jhy/jsoup

2.4 运行项目测试代码

通过上面的方法，我们很快可知 example 目录是测试代码，那我们直接来运行。注：有些测试代码需要稍微改造一下才可以运行。

例如，jsoup 的 Wikipedia 测试代码：

public class Wikipedia {

public static void main(String[] args) throws IOException {

Document doc = Jsoup.connect("http://en.wikipedia.org/").get;

log(doc.title);

Elements newsHeadlines = doc.select("#mp-itn b a");

for (Element headline : newsHeadlines) {

log("%snt%s", headline.attr("title"), headline.absUrl("href"));

}

private static void log(String msg, String... vals) {

System.out.println(String.format(msg, vals));

}

说明：上面代码是获取页面（http://en.wikipedia.org/）包含（#mp-itn b a）选择器的所有元素，并打印这些元素的 title , herf 属性。维基百科国内无法访问，所以上面这段代码运行会报错。

改造后可运行的代码如下：

public static void main(String[] args) throws IOException {

Document doc = Jsoup.connect("https://www.baidu.com/").get;

Elements newsHeadlines = doc.select("a[href]");

for (Element headline : newsHeadlines) {

System.out.println("href: " +headline.absUrl("href") );

}

工作原理

Jsoup 的工作原理，首先需要指定一个 URL，框架发送 HTTP 请求，然后获取响应页面内容，然后通过各种选择器获取页面数据。整个工作流程如下图：

以上面为例：

3.1 发请求

Document doc = Jsoup.connect("https://www.baidu.com/").get;

这行代码就是发送 HTTP 请求，并获取页面响应数据。

3.2 数据筛选

Elements newsHeadlines = doc.select("a[href]");

定义选择器，获取匹配选择器的数据。

3.3 数据处理

for (Element headline : newsHeadlines) {

System.out.println("href: " +headline.absUrl("href") );

}

这里对数据只做了一个简单的数据打印，当然这些数据可写入文件或数据的。

实战

获取豆瓣读书 -> 新书速递中每本新书的基本信息。包括：书名、书图片链接、作者、内容简介（详情页面）、作者简介（详情页面）、当当网书的价格（详情页面），最后将获取的数据保存到 Excel 文件。

目标链接：https://book.douban.com/latest?icn=index-latestbook-all

4.1 项目 pom.xml 文件

项目引入 jsoup、lombok、easyexcel 三个库。

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.Apache.org/POM/4.0.0"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

<groupId>org.example</groupId>

<artifactId>JsoupTest</artifactId>

<version>1.0-SNAPSHOT</version>

<maven.compiler.target>1.8</maven.compiler.target>

<maven.compiler.source>1.8</maven.compiler.source>

</properties>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

</dependency>

<groupId>org.projectlombok</groupId>

<artifactId>lombok</artifactId>

</dependency>

<groupId>com.alibaba</groupId>

<artifactId>easyexcel</artifactId>

</dependency>

</dependencies>

</project>

4.2 解析页面数据

public class BookInfoUtils {

public static List<BookEntity> getBookInfoList(String url) throws IOException {

List<BookEntity> bookEntities=new ArrayList<>;

Document doc = Jsoup.connect(url).get;

Elements liDiv = doc.select("#content > div > div.article > ul > li");

for (Element li : liDiv) {

Elements urls = li.select("a[href]");

Elements imgUrl = li.select("a > img");

Elements bookName = li.select(" div > h2 > a");

Elements starsCount = li.select(" div > p.rating > span.font-small.color-lightgray");

Elements author = li.select("div > p.color-gray");

Elements description = li.select(" div > p.detail");

String bookDetailUrl = urls.get(0).attr("href");

BookDetailInfo detailInfo = getDetailInfo(bookDetailUrl);

BookEntity bookEntity = BookEntity.builder

.detailPageUrl(bookDetailUrl)

.bookImgUrl(imgUrl.attr("src"))

.bookName(bookName.html)

.starsCount(starsCount.html)

.author(author.text)

.bookDetailInfo(detailInfo)

.description(description.html)

.build;

// System.out.println(bookEntity);

bookEntities.add(bookEntity);

}

return bookEntities;

}

/**

* @param detailUrl

* @return

* @throws IOException

public static BookDetailInfo getDetailInfo(String detailUrl)throws IOException{

Document doc = Jsoup.connect(detailUrl).get;

Elements content = doc.select("body");

Elements price = content.select("#buyinfo-printed > ul.bs.current-version-list > li:nth-child(2) > div.cell.price-btn-wrApper > div.cell.impression_track_mod_buyinfo > div.cell.price-wrapper > a > span");

Elements author = content.select("#info > span:nth-child(1) > a");

BookDetailInfo bookDetailInfo = BookDetailInfo.builder

.author(author.html)

.authorUrl(author.attr("href"))

.price(price.html)

.build;

return bookDetailInfo;

}

这里的重点是要获取网页对应元素的选择器。

例如：获取 li.select("div > p.color-gray") 中 div > p.color-gray 是怎么知道的。

使用 chrome 的小伙伴应该都猜到了。打开 chrome 浏览器 Debug 模式，Ctrl + Shift +C 选择一个元素,然后在 html 右键选择 Copy ->Copy selector,这样就可以获取当前元素的选择器。如下图：

4.3 存储数据到 Excel

为了数据更好查看，我将通过 jsoup 抓取的数据存储的 Excel 文件，这里我使用的 easyexcel 快速生成 Excel 文件。

Excel 表头信息

@Data

@Builder

public class ColumnData {

@ExcelProperty("书名称")

private String bookName;

@ExcelProperty("评分")

private String starsCount;

@ExcelProperty("作者")

private String author;

@ExcelProperty("封面图片")

private String bookImgUrl;

@ExcelProperty("简介")

private String description;

@ExcelProperty("单价")

private String price;

}

生成 Excel 文件

public class EasyExcelUtils {

public static void simpleWrite(List<BookEntity> bookEntityList) {

String fileName = "D:\devEnv\JsoupTest\bookList" + System.currentTimeMillis + ".xlsx";

EasyExcel.write(fileName, ColumnData.class).sheet("书本详情").doWrite(data(bookEntityList));

System.out.println("excel文件生成完毕...");

}

private static List<ColumnData> data(List<BookEntity> bookEntityList) {

List<ColumnData> list = new ArrayList<>;

bookEntityList.forEach(b -> {

ColumnData data = ColumnData.builder

.bookName(b.getBookName)

.starsCount(b.getStarsCount)

.author(b.getBookDetailInfo.getAuthor)

.bookImgUrl(b.getBookImgUrl)

.description(b.getDescription)

.price(b.getBookDetailInfo.getPrice)

.build;

list.add(data);

});

return list;

}

4.4 最终展示效果

最终的效果如下图：

以上就是从想法到实践，我们就在实战中使用了 jsoup 的基本操作。

完整代码地址：https://github.com/hellowHuaairen/JsoupTest

最后

Java HTML Parser 库：jsoup，把它当成简单的爬虫用起来还是很方便的吧？

为什么会讲爬虫？大数据，人工智能时代玩的就是数据，数据很重要。作为懂点技术的我们，也需要掌握一种获取网络数据的技能。当然也有一些工具 Fiddler、webscraper 等也可以抓取你想要的数据。

教程至此，你应该也能对 jsoup 有一些感觉了吧。编程是不是也特别有意思呢？参考我上面的实战案例，有好多网站可以实践一下啦～

Tags：爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Python爬虫实战，pyecharts模块，Python实现中国地铁数据可视化

利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：requests模块；wordcloud模块；pandas模块；numpy模块；jieba模块；pyecharts模...【详细内容】

2021-12-08　　Tags: 爬虫点击:(34)　　评论:(0)　　加入收藏

被称之为永远的神！就这6个Python爬虫开源项目？

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。...【详细内容】

2021-10-27　　Tags: 爬虫点击:(43)　　评论:(0)　　加入收藏

scrapy翻页爬取--scrapy爬虫案例

今天我们仍旧利用scrapy框架实现自动翻页爬取数据，爬取诗词胖排行榜（ https://www.shicimingju.com/paiming）中的标题。1.新建文件夹scrapy starproject 文件名（wallpaper）2.新建...【详细内容】

2021-10-21　　Tags: 爬虫点击:(62)　　评论:(0)　　加入收藏

python爬虫入门，带你爬取彩票开奖数据，和写入文件操作

回顾python学习历程，感慨良多，这门语言实在是太强了，当然，分支也很多，有的在做安全，有的在做数据，有的在做爬虫，本文就笔者本身的爬虫入门的小经验分享给读者，期待各位在学习python的...【详细内容】

2021-08-11　　Tags: 爬虫点击:(81)　　评论:(0)　　加入收藏

Python爬虫快速入门，BeautifulSoup基本使用及实践

来源：Python数据之道作者：Peter整理：阳哥大家好，我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点，文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】

2021-06-23　　Tags: 爬虫点击:(134)　　评论:(0)　　加入收藏

不能爬小程序，叫什么会爬虫

上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失...【详细内容】

2021-05-07　　Tags: 爬虫点击:(261)　　评论:(0)　　加入收藏

爬虫不使用代理IP会出现什么的情况

众所周知，代理IP可以助力爬虫工作更好的进行，很多人认为：如果没有代理IP，爬虫工作寸步难行。那么，如果爬虫不使用代理IP会出现什么情况呢？一、小型爬虫：可有可无爬几百篇文章，几百...【详细内容】

2021-05-07　　Tags: 爬虫点击:(157)　　评论:(0)　　加入收藏

Python高级反爬虫类型(App反爬虫)

前言将爬虫的爬取过程分为网络请求，文本获取和数据提取3个部分。信息校验型反爬虫主要出现在网络请求阶段，这个阶段的反爬虫理念以预防为主要目的，尽可能拒绝反爬虫程序的请...【详细内容】

2021-04-20　　Tags: 爬虫点击:(451)　　评论:(0)　　加入收藏

终于有人把Scrapy爬虫框架讲明白了

导读：Scrapy由Python语言编写，是一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试...【详细内容】

2021-04-13　　Tags: 爬虫点击:(333)　　评论:(0)　　加入收藏

一文弄清Python网络爬虫解析库！内含多个实例讲解

在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后，可能大家还对超长的正则表达式记忆犹新，设想如果想要匹配的条目更加多那表达式长度将会更加恐怖，这显然...【详细内容】

2021-04-12　　Tags: 爬虫点击:(262)　　评论:(0)　　加入收藏

▌简易百科推荐

最完整的Vue教程-从零开始编写可视化大屏

摘要（OF作品展示）OF之前介绍了用python实现数据可视化、数据分析及一些小项目，但基本都是后端的知识。想要做一个好看的可视化大屏，我们还要学一些前端的知识（vue），网上有很多比...【详细内容】

2021-12-27　　项目与数据管理　　　　Tags:Vue 　点击:(1)　　评论:(0)　　加入收藏

程序的执行流程和开发工具介绍

程序是如何被执行的&emsp;&emsp;程序是如何被执行的？许多开发者可能也没法回答这个问题，大多数人更注重的是如何编写程序，却不会太注意编写好的程序是如何被运行，这并不是一个好...【详细内容】

2021-12-23　　IT学习日记　　　　Tags:程序　点击:(9)　　评论:(0)　　加入收藏

单点登录(SSO)看这一篇还不够！这次不慌了

阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案单系统登录解决方案的核心是cookie，cookie携带会话id在浏览器...【详细内容】

2021-12-23　　程序yuan　　　　Tags:单点登录( 　点击:(8)　　评论:(0)　　加入收藏

手把手教你构建一个简单的Eclipse RCP应用

下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse，那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用（总共分为六步）1...【详细内容】

2021-12-22　　阿福ChrisYuan　　　　Tags:RCP应用　点击:(7)　　评论:(0)　　加入收藏

浅析 Token 价值的意义及来源

今天想简单聊一聊 Token 的 Value Capture，就是币的价值问题。首先说明啊，这个话题包含的内容非常之光，Token 的经济学设计也可以包含诸多问题，所以几乎不可能把这个问题说的清...【详细内容】

2021-12-21　　唐少华TSH　　　　Tags:Token 　点击:(9)　　评论:(0)　　加入收藏

在VUE中实现效果"换一换"功能

实现效果：假如有10条数据，分组展示，默认在当前页面展示4个，点击换一批，从第5个开始继续展示，到最后一组，再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】

2021-12-17　　Mason程　　　　Tags:VUE 　点击:(14)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　软件测试小p　　　　Tags:性能调优　点击:(19)　　评论:(0)　　加入收藏

抖音防烧屏脚本 – Tasker 脚本分享，适用于 OLED 屏幕

Tasker 是一款适用于 Android 设备的高级自动化应用，它可以通过脚本让重复性的操作自动运行，提高效率。不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖，自...【详细内容】

2021-12-15　　ITBang　　　　Tags:抖音防烧屏　点击:(23)　　评论:(0)　　加入收藏

Rust 核心团队“有毒”

11 月 23 日，Rust Moderation Team（审核团队）在 GitHub 上发布了辞职公告，即刻生效。根据公告，审核团队集体辞职是为了抗议 Rust 核心团队（Core team）在执行社区行为准则和标准上...【详细内容】

2021-12-15　　InfoQ　　　　Tags:Rust 　点击:(24)　　评论:(0)　　加入收藏

实践：使用AutoMeter快速生成API和测试用例的方法

一个项目的大部分API，测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API，复制用例来快速生成，然后做细微调整既可以满足我们的测试需求1.复制API：在菜单发布单...【详细内容】

2021-12-14　　AutoMeter　　　　Tags:AutoMeter 　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为