您当前的位置：首页 > 电脑百科 > 程序开发 > 语言 > Python

Python爬虫练习：爬取800多所大学学校排名、星级等

时间：2021-04-08 12:30:42 来源：今日头条作者：Python可乐

+ 加入收藏

前言

国内大学最新排名，北大反超，浙大仅第四，中科大跌至第八

时隔五年，“双一流”大学即将迎来首次大考，这也是继改变高校评断标准之后，第一次即将以官方对外发布，自然是引来了许多人的关注。最近，有许多不同机构发布的国内高校排名，但彼此之间的差异很大，网友之间的争议也很大。

私信小编01即可获取大量Python/ target=_blank class=infotextkey>Python学习资料

项目目标

爬取高三网大学排名，并保存

目标网址

http://m.gaosan.com/gaokao/265440.html

基本环境配置

python 3.6 pycharm

爬虫代码

导入工具

import requests
import parsel
import csv

请求网页数据

url = 'http://m.gaosan.com/gaokao/265440.html'

headers = {
    'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response.encoding = response.apparent_encoding

爬取数据

selector = parsel.Selector(response.text)
trs = selector.css('#page tr')

for tr in trs:
    dit = {}
    ranking = tr.css('td:nth-child(1)::text').get()
    dit['名次'] = ranking
    school = tr.css('td:nth-child(2)::text').get()
    dit['学校名称'] = school
    score = tr.css('td:nth-child(3)::text').get()
    dit['综合得分'] = score
    star = tr.css('td:nth-child(4)::text').get()
    dit['星级排名'] = star
    level = tr.css('td:nth-child(5)::text').get()
    dit['办学层次'] = level
    csv_writer.writerow(dit)

保存数据

f = open('排名.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['名次', '学校名称', '综合得分', '星级排名', '办学层次'])
f.close()

运行代码，效果如下图

Tags：Python爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

python爬虫之爬取疫情数据

#coding=utf-8import requestsimport osimport jsonfrom jsonpath import jsonpathimport timeurl='https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/...【详细内容】

2022-06-29　　Tags: Python爬虫点击:(47)　　评论:(0)　　加入收藏

Python爬虫实战，pyecharts模块，Python实现中国地铁数据可视化

利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：requests模块；wordcloud模块；pandas模块；numpy模块；jieba模块；pyecharts模...【详细内容】

2021-12-08　　Tags: Python爬虫点击:(239)　　评论:(0)　　加入收藏

被称之为永远的神！就这6个Python爬虫开源项目？

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。...【详细内容】

2021-10-27　　Tags: Python爬虫点击:(116)　　评论:(0)　　加入收藏

python爬虫入门，带你爬取彩票开奖数据，和写入文件操作

回顾python学习历程，感慨良多，这门语言实在是太强了，当然，分支也很多，有的在做安全，有的在做数据，有的在做爬虫，本文就笔者本身的爬虫入门的小经验分享给读者，期待各位在学习python的...【详细内容】

2021-08-11　　Tags: Python爬虫点击:(150)　　评论:(0)　　加入收藏

Python爬虫快速入门，BeautifulSoup基本使用及实践

来源：Python数据之道作者：Peter整理：阳哥大家好，我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点，文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】

2021-06-23　　Tags: Python爬虫点击:(191)　　评论:(0)　　加入收藏

Python爬虫练习：爬取800多所大学学校排名、星级等

前言国内大学最新排名，北大反超，浙大仅第四，中科大跌至第八时隔五年，“双一流”大学即将迎来首次大考，这也是继改变高校评断标准之后，第一次即将以官方对外发布，自然是引来了许多人...【详细内容】

2021-04-08　　Tags: Python爬虫点击:(510)　　评论:(0)　　加入收藏

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释，源码分析

实施步骤(1) 数据爬取：使用requests请求为基础获取数据源。(2) UA伪装：模拟浏览器访问网址。(3) 数据解析：使用xpath语法处理数据。(4) 数据存储：获取需求数据后使用Excrl进行存...【详细内容】

2021-03-16　　Tags: Python爬虫点击:(291)　　评论:(0)　　加入收藏

四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？

在使用Python本爬虫采集数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。...【详细内容】

2021-03-04　　Tags: Python爬虫点击:(291)　　评论:(0)　　加入收藏

凭借这5步，我30分钟学会了Python爬虫

专注Python、AI、大数据，请关注公众号七步编程！在不同公司的许多人可能出于各种原因需要从Internet收集外部数据：分析竞争，汇总新闻摘要、跟踪特定市场的趋势，或者收集每日股票价...【详细内容】

2020-12-10　　Tags: Python爬虫点击:(127)　　评论:(0)　　加入收藏

别再用手敲了，这个工具可以自动生成python爬虫代码

我们在写爬虫代码时，常常需要各种分析调试，而且每次直接用代码调试都很麻烦所以今天给大家分享一个工具，不仅能方便模拟发送各种http请求，还能轻松调试，最重要的是，可以将调试最终...【详细内容】

2020-12-07　　Tags: Python爬虫点击:(283)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真