您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

python带你采集汽车数据,以后买车就有参考了

时间:2022-06-24 10:04:17  来源:今日头条  作者:python芊

本篇代码提供者: 青灯教育-巳月老师


本次亮点:

1、系统分析目标网页

2、html标签数据解析方法

3、海量数据一键保存

环境介绍:

  • Python/ target=_blank class=infotextkey>Python 3.8
  • pycharm 2021专业版 >>> 激活码
  • requests >>> pip install requests
  • parsel >>> pip install parsel

代码实现:

  1. 发送请求 (访问网站)
  2. 获取数据 网页源代码
  3. 解析数据 (网页构造, css样式选择器)
  4. 保存数据

代码

导入模块

import requests     # 发送请求 第三方模块(基于urllib开发模块) 额外安装 pip install 模块名
import parsel       # 解析数据模块 第三方模块 额外安装 pip install 模块名
import csv          # 内置模块 不需要你额外安装

伪装

# 伪装 请求头 request headers
headers = {
    # 用户基本信息, 没有登陆信息
    'Cookie': 'fvlid=1644577630437PyNsv7r4UeWZ; che_sessionid=6033453E-99CD-4D18-9EC6-26D8D81CB82E%7C%7C2022-02-11+19%3A07%3A13.352%7C%7C0; sessionid=1510cb04-9fdd-428f-82f7-d7b77ccae016; area=430103; sessionip=175.0.63.33; sessionvisit=98f1634e-6cbb-4f5e-97f9-6af88e5b8d33; sessionvisitInfo=1510cb04-9fdd-428f-82f7-d7b77ccae016|www.autohome.com.cn|100533; Hm_lvt_d381ec2f88158113b9b76f14c497ed48=1650521306; che_sessionvid=6223C48B-0DCD-4485-8DB7-B9A2D39AC7FF; carDownPrice=1; listuserarea=0; UsedCarBrowseHistory=0%3A43390985%2C0%3A43390239%2C0%3A43268434%2C0%3A43010424; userarea=0; ahpvno=23; Hm_lpvt_d381ec2f88158113b9b76f14c497ed48=1650523580; ahuuid=46A0D5A6-5C39-4735-A5CE-3F6DA42672C9; showNum=52; v_no=36; visit_info_ad=6033453E-99CD-4D18-9EC6-26D8D81CB82E||6223C48B-0DCD-4485-8DB7-B9A2D39AC7FF||-1||-1||36; che_ref=www.autohome.com.cn%7C0%7C100533%7C0%7C2022-04-21+14%3A46%3A20.424%7C2022-02-11+19%3A55%3A59.495; sessionuid=1510cb04-9fdd-428f-82f7-d7b77ccae016',
    # 浏览器基本信息
    # 源码、解答、教程有需要可以口裙:8321删57862
    'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'
}
# z = 1, y = 2
url = 'https://www.che168.com/china/list/'

发送请求

# 1. 发送请求 (访问网站)
# # 打印
# print(url)
# 发送请求 方式
response = requests.get(url=url, headers=headers)

获取数据

# 2. 获取数据 网页源代码
html_data = response.text

解析数据

# 3. 解析数据 (网页构造, css样式选择器)
# 数据分析
# 网站开发   >>> 都有
# 人工智能
# html(存储数据) + css(样式) + js(可以实现动态的效果)
# <div class="viewlist_ul">
#       车辆信息
# </div>
# <div>
#     车主信息... 
# 源码、解答、教程有需要可以口裙:8321删57862
# </div>
# <img />
selector = parsel.Selector(html_data)
# python 数据容器 列表 [1,3,4,5,6]
# 我要用别名去取值
lis = selector.css('.viewlist_ul li')
for li in lis:
    card_name = li.css('.card-name::text').get()
    cards_unit = li.css('.cards-unit::text').get()
    price = li.css('.pirce em::text').get()
    img_url = 'https:'+li.css('.img-box img::attr(src)').get()
    if price == None or price == "":
        price = li.css('.pirce::text').get()
    print(card_name, cards_unit, price, img_url)

保存数据

    # 4. 保存数据
    with open('汽车之家.csv', mode='a', encoding='utf-8', newline='') as f:
        csv_writer = csv.writer(f)
        csv_writer.writerow([card_name, cards_unit, price, img_url])

尾语

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!



Tags:采集   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: 采集  点击:(14)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  Search: 采集  点击:(56)  评论:(0)  加入收藏
Spring Cloud 实现分布式实时日志分析采集的三种方案
ELK 已经成为目前最流行的集中式日志解决方案,它主要是由Beats、Logstash、Elasticsearch、Kibana等组件组成,来共同完成实时日志的收集,存储,展示等一站式的解决方案。本文将会...【详细内容】
2023-11-27  Search: 采集  点击:(194)  评论:(0)  加入收藏
如何使用Python Scrapy库提升数据采集速度?
Scrapy是一个强大而灵活的Python爬虫框架,被广泛用于数据采集、网站抓取和网络爬虫开发。本文将深入介绍Scrapy的功能和用法,并提供丰富的示例代码,帮助更好地理解和应用。一、...【详细内容】
2023-10-22  Search: 采集  点击:(107)  评论:(0)  加入收藏
帝国cms怎么采集信息
帝国cms怎么采集信息?帝国cms是我们用得比较多得PHP的建站系统,在建站过程中,如果自己没有信息源,只能靠手工不断的重复copy和粘贴,这样费时费力,于是我们就要使用帝国cms自带的采...【详细内容】
2023-05-19  Search: 采集  点击:(435)  评论:(0)  加入收藏
采集加密网页内容的10个技巧
在当今信息化时代,我们不仅需要获取网络上公开的信息,还需要从一些私密的加密网页中获取相关内容。但是,如何采集加密码的网页内容呢?本文将从以下10个方面逐步分析讨论。1.了解...【详细内容】
2023-05-08  Search: 采集  点击:(322)  评论:(0)  加入收藏
北京小学初中入学信息采集昨起开始,各区审核条件强调“实际居住”
昨起,本市小学和初中入学信息采集工作启动,学生家长应在规定时间内进行网上信息填报和确认。今年,各区在入学条件审核上进一步明确“实际居住”,空挂户等情况不得作为入学条件。...【详细内容】
2023-05-06  Search: 采集  点击:(130)  评论:(0)  加入收藏
北京小学初中入学信息采集今开始
小学初中入学信息采集今开始,各区审核入学条件强调“实际居住”...【详细内容】
2023-05-06  Search: 采集  点击:(121)  评论:(0)  加入收藏
邮件采集筛选:快速找到所需内容的技巧
在信息爆炸的时代,如何快速、准确地获取所需信息成为了许多人的问题。而邮件采集筛选技术,可以帮助我们在海量信息中快速找到所需内容。下面就让我们逐步了解邮件采集筛选技术...【详细内容】
2023-04-28  Search: 采集  点击:(370)  评论:(0)  加入收藏
探讨WebSocket内容采集技术应用,解读相关知识与技巧
WebSocket是一种新兴的网络协议,它能够提供全双工、实时、高效的数据传输方式。在互联网时代,数据采集是一个非常重要的环节,而WebSocket可以帮助我们更加快速高效地获取所需数...【详细内容】
2023-04-25  Search: 采集  点击:(300)  评论:(0)  加入收藏
▌简易百科推荐
一篇文章教会你使用Python中三种简单的函数
所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。一、函数简介所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。二、函数定义...【详细内容】
2024-04-11  Go语言进阶学习  微信公众号  Tags:Python   点击:(12)  评论:(0)  加入收藏
一篇文章带你了解Python的分布式进程接口
在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中,应当优...【详细内容】
2024-04-11  Go语言进阶学习    Tags:Python   点击:(9)  评论:(0)  加入收藏
Python 可视化:Plotly 库使用基础
当使用 Plotly 进行数据可视化时,我们可以通过以下示例展示多种绘图方法,每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】
2024-04-01  Python技术    Tags:Python   点击:(15)  评论:(0)  加入收藏
Python 办公神器:教你使用 Python 批量制作 PPT
介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是:一名基层人员,要给一次比赛活动获奖的500名选手制作奖状,并...【详细内容】
2024-03-26  Python技术  微信公众号  Tags:Python   点击:(21)  评论:(0)  加入收藏
Python实现工厂模式、抽象工厂,单例模式
工厂模式是一种常见的设计模式,它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中,我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】
2024-03-07  Python都知道  微信公众号  Tags:Python   点击:(36)  评论:(0)  加入收藏
不可不学的Python技巧:字典推导式使用全攻略
Python的字典推导式是一种优雅而强大的工具,用于创建字典(dict)。这种方法不仅代码更加简洁,而且执行效率高。无论你是Python新手还是有经验的开发者,掌握字典推导式都将是你技能...【详细内容】
2024-02-22  子午Python  微信公众号  Tags:Python技巧   点击:(41)  评论:(0)  加入收藏
如何进行Python代码的代码重构和优化?
Python是一种高级编程语言,它具有简洁、易于理解和易于维护的特点。然而,代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构?代码重构是指在不改变代码外部行为的...【详细内容】
2024-02-22  编程技术汇    Tags:Python代码   点击:(42)  评论:(0)  加入收藏
Python开发者必备的八个PyCharm插件
在编写代码的过程中,括号几乎无处不在,以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】
2024-01-26  Python学研大本营  微信公众号  Tags:PyCharm插件   点击:(92)  评论:(0)  加入收藏
Python的Graphlib库,再也不用手敲图结构了
Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能,可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法,并提供一些示例代码和...【详细内容】
2024-01-26  科学随想录  微信公众号  Tags:Graphlib库   点击:(93)  评论:(0)  加入收藏
Python分布式爬虫打造搜索引擎
简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了,在这个...【详细内容】
2024-01-25  大雷家吃饭    Tags:Python   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条