前几天,我分享了一篇文章,里面讲的是用户GUI下载包含B站在内的视频的Python程序。今天我们以国内第一支主打中国风的女子组合--七朵组合为例,利用之前的分享的知识,下载UP主的所有B站视频。
一代七朵-咏春
先看下七朵组合的百度百科(这个时候已经更新为最新的五位成员了):
七朵组合,中国内地女子演唱组合,由喻筱博、颜灵兰、韦欢、吴圆圆、刘木子五位成员组成。2012年6月28日,推出组合首支单曲《咏春》,从而正式出道 [1] ;10月23日,演唱的歌曲《心慌慌》获得“鹏城歌飞扬”深圳原创音乐第三季度十佳金曲奖 [2] ;12月9日,凭借单曲《咏春》获得香港TVB8金曲榜年度最佳新人奖以及年度最佳组合奖提名 [3] 。2013年5月17日,发布中国风单曲《玉生烟》;11月13日,推出“欢”季恋歌单曲《宫商角徵羽》 [4] 。2014年2月14日,发布情人节单曲《蝴蝶恋》 [5] ;4月16日,获得音悦台V-Chart Awards颁奖典礼“最具人气潜力奖”的提名 [6] 。2017年,发布了中国风单曲《青蛇》。2018年1月21日,发布中国风单曲《将军令》 [7] ;10月22日,参加“古画会唱歌”音乐创新大赛,单曲《墨染梅霜》以第一名的成绩进入决赛圈 [8] 。2019年1月11日,发行中国风单曲《女侠》 [9] 。
回归七朵-青蛇
在我的印象里,第一次认识七朵组合,是在2014年安徽卫视的春节联欢晚会上,七朵组合在舞台上像7只美丽的百灵鸟,表演着她们的中国风歌曲《咏春》,她们美丽的身姿深深地吸引到了我,从那以后,她们出的每一首歌,我都听过,有喜欢的,也有不喜欢的。即使有不喜欢的,我依然要全力向大家推荐她们,因为她们太欠红了!
七朵不红,天理难容!
印象比较深刻的歌曲有很多:《咏春》、《落花情》、《扬州慢》、《玉生烟》、《孔明》、《青蛇》、《醉花荫》、《江南夜》等等。
最特别的,咏春的春节特别版,圆圆的两声yayiyayiyou,让人回味无穷;孔明中欢欢的最后那几句,孔明恐恐恐,也怕女儿梦,陪你喝两盅,再去对隆中,独守着空城,南阳夜也冷,寒月照三更,琵琶惹古筝,你独守着,准我为你折腰,也是点睛之笔。
最近还新出了一首《哪吒》,也是非常好听!!!赶紧去听吧!!!
好啦,回归正题:
思路:
(1)获取UP主所有视频的id,结合播放页面https://www.bilibili.com/video/av65732818,可以看出,id即为av后面的数字,即只要获取到id,即可得到所有的视频播放链接;
(2)利用you-get,一个一个下载;
缺点:不能多进程下载,下载进度缓慢。
开始解析:
1、打开七朵组合的投稿页面
按照之前分享过的方法,找到这些视频的链接在哪里!
2、鼠标右键(Chrome)--检查--F5--Network--XHR,可以看到这样一条信息
这里面包含着我们想要的视频的id信息!
有人问,为啥你这么快就找到了呢?你怎么找的呢?
其实基本的两种方法还是有的,但是像网易云音乐那种加密的除外!
(1)Ctrl+F,搜索原页面中包含的信息;
(2)看XHR项的大小,能达到kb级别的很有可能是你需要的东西;
然后我们开始点击下一页,可以发现是这样的
又出现了一条和上一页面类似的链接,比较发现,只有page的参数不一致,那就循环page就行啦!
好啦,分析到此结束!
代码如下:
# author:Jinbu Zhang
# 目的:爬取哔哩哔哩视频某位作者的所有视频
# 思路:1、获取该作者在B站发布的所有视频地址;2、调用you-get库下载到指定路径
import requests import json import you_get import os import time import random import sys import winreg headers = {"User-Agent":"Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/73.0.3683.103 Safari/537.36"} def get_desktop(): key = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'SoftwareMicrosoftWindowsCurrentVersionExplorerShell Folders') return winreg.QueryValueEx(key, "Desktop")[0] save_path = get_desktop() + '\' + 'you_get'+'\' if not os.path.exists(save_path): os.mkdir(save_path) # 播放页视频下载 def download_mv_bilibili(mv_id): mv_id_download = 'https://www.bilibili.com/video/av'+str(mv_id) os.system("you-get -o %s %s"%(save_path,mv_id_download)) # 对得到的json数据进行解析(字典访问形式) def explain_json(json_data): mv_datas = json_data['data']['vlist'] mv_infors = [] for mv_data in mv_datas: mv_title = mv_data['title'] mv_author = mv_data['author'] # 41842701 mv_id = mv_data['aid'] mv_length = mv_data['length'] mv_description = mv_data['description'] mv_cover = mv_data['pic'] mv_play = mv_data['play'] mv_comment = mv_data['comment'] print('==' * 60) time.sleep(0.5) print('>>%s...'%mv_title) print('>>>https://www.bilibili.com/video/av%s' % mv_id) print('==' * 60) # 下载MV&视频 # download_mv_bilibili(mv_id) # 对URL进行访问,得到的数据进行解析 def get_html(access_url): response = requests.get(access_url,headers=headers) html = response.text json_data = json.loads(html) mv_infor = explain_json(json_data) # 主函数拼凑URL def main(): base_url = 'https://space.bilibili.com/ajax/member/getSubmitVideos?mid=43636152&pagesize=30&tid=0&page={}&keyword=&order=pubdate' for k in range(1,4): time.sleep(2) access_url = base_url.format(k) html = get_html(access_url) if __name__ == "__main__": main()
结果展示:
好啦,今天的python爬虫分析就到这里,有需要交流的可以私信或者加我的微信【其他文章中留过,大家记得关注我,以后会给大家分享更多!】
谢谢啦!