您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

时间:2020-10-09 10:39:51  来源:  作者:

众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列。通过分析弹幕,我们可以快速洞察广大观众对于视频的看法。

阿喵通过一个关于《八佰》的视频弹幕数据,绘制了如下词云图,感觉效果还是可以的。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

 

这里多说一句,小编是一名Python/ target=_blank class=infotextkey>Python开发工程师,这里有我自己整理的一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。

海量的弹幕数据不仅可以绘制此类词云图,还可以调用百度AI进行情感分析。那么,我们该如何获取弹幕数据呢?本文运用Python爬取B站视频、腾讯视频、芒果TV和爱奇艺视频等弹幕,让你轻松获取主流视频网站弹幕数据。

一、B站视频弹幕

1.网页分析

本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗?》视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

 

简单分析url参数,很显然,date参数表示发送弹幕的时间,其他参数均无变化。因此,只需要改变date参数,然后通过beautifulsoup解析到弹幕数据即可。

2.爬虫实战

import requests #请求网页数据

from bs4 import BeautifulSoup #美味汤解析数据

import pandas as pd

import time

from tqdm import trange #获取爬取速度

def get_bilibili_url (start, end) :

url_list = []

date_list = [i for i in pd.date_range(start, end).strftime( '%Y-%m-%d' )]

for date in date_list:

url = f"api.bilibili.com/x/v2/dm/his… {date} "

url_list.Append(url)

return url_list

def get_bilibili_danmu (url_list) :

headers = {

"user-agent" : "Mozilla/5.0 (macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/83.0.4103.116 Safari/537.36" ,

"cookie" : "你自己的" #Headers中copy即可

}

file = open( "bilibili_danmu.txt" , 'w' )

for i in trange(len(url_list)):

url = url_list[i]

response = requests.get(url, headers=headers)

response.encoding = 'utf-8'

soup = BeautifulSoup(response.text)

data = soup.find_all( "d" )

danmu = [data[i].text for i in range(len(data))]

for items in danmu:

file.write(items)

file.write( "n" )

time.sleep( 3 )

file.close()

if name == "main" :

start = '9/24/2020' #设置爬取弹幕的起始日

end = '9/26/2020' #设置爬取弹幕的终止日

url_list = get_bilibili_url(start, end)

get_bilibili_danmu(url_list)

print(

"弹幕爬取完成"

)

3.数据预览

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

二、腾讯视频弹幕

1.网页分析

本文以爬取《脱口秀大会 第3季》最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

 

通过删减各参数,发现仅有timestamp参数的变化会影响弹幕数据的爬取,且timestamp参数是首项为15,公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据,该视频长度为12399秒。而数据格式为标准的json格式,因此json.loads直接解析数据即可。

2.爬虫实战

import requests

import json

import time

import pandas as pd

df = pd.DataFrame()

for page in range( 15 , 12399 , 30 ):

headers = { 'User-Agent' : 'Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' }

url = 'mfm.video.qq.com/danmu?otype… .format(page)

print( "正在提取第" + str(page) + "页" )

html = requests.get(url,headers = headers)

bs = json.loads(html.text,strict = False ) #strict参数解决部分内容json格式解析报错

time.sleep( 1 )

#遍历获取目标字段

for i in bs[ 'comments' ]:

content = i[ 'content' ] #弹幕

upcount = i[ 'upcount' ] #点赞数

user_degree =i[ 'uservip_degree' ] #会员等级

timepoint = i[ 'timepoint' ] #发布时间

comment_id = i[ 'commentid' ] #弹幕id

cache = pd.DataFrame({ '弹幕' :[content], '会员等级' :[user_degree],

'发布时间' :[timepoint], '弹幕点赞' :[upcount], '弹幕id' :[comment_id]})

df = pd.concat([df,cache])

df.to_csv( 'tengxun_danmu.csv' ,encoding = 'utf-8' )

print(df.shape)

3.数据预览

 

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

 

三、芒果TV弹幕

1.网页分析

本文以爬取《乘风破浪的姐姐》最后一期视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

通过分析参数,我们可以发现,芒果TV会生成首项为0,公差为1的等差数列json弹幕文件,每个json文件存储前一分钟内所有的弹幕数据。弹幕数据存放格式为json,数据解析较为简单。

2.爬虫实战

import requests

import json

import pandas as pd

def get_mangguo_danmu (num1, num2, page) :

try :

url = 'bullet-ws.hitv.com/bullet/2020…

print( "正在爬取第" + str(page) + "页" )

danmuurl = url.format(num1, num2, page)

res = requests.get(danmuurl)

res.encoding = 'utf-8'

#print(res.text)

data = json.loads(res.text)

except :

print( "无法连接" )

details = []

for i in range(len(data[ 'data' ][ 'items' ])): # 弹幕数据在json文件'data'的'items'中

result = {}

result[ 'stype' ] = num2 # 通过stype可识别期数

result[ 'id' ] = data[ 'data' ][ 'items' ][i][ 'id' ] # 获取id

try : # 尝试获取uname

result[ 'uname' ] = data[ 'data' ][ 'items' ][i][ 'uname' ]

except :

result[ 'uname' ] = ''

result[ 'content' ] = data[ 'data' ][ 'items' ][i][ 'content' ] # 获取弹幕内容

result[ 'time' ] = data[ 'data' ][ 'items' ][i][ 'time' ] # 获取弹幕发布时间

try : # 尝试获取弹幕点赞数

result[ 'v2_up_count' ] = data[ 'data' ][ 'items' ][i][ 'v2_up_count' ]

except :

result[ 'v2_up_count' ] = ''

details.append(result)

return details

#输入关键信息

def count_danmu () :

danmu_total = []

num1 = input( '第一个数字' )

num2 = input( '第二个数字' )

page = int(input( '输入总时长' ))

for i in range(page):

danmu_total.extend(get_mangguo_danmu(num1, num2, i))

return danmu_total

def main () :

df = pd.DataFrame(count_danmu())

df.to_csv( 'mangguo_danmu.csv' )

if name == 'main' :

main()

3.数据预览

 

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

 

四、爱奇艺弹幕

1.网页分析

本文以爬取《乐队的夏天第2季》第13期上视频弹幕为例,首先通过以下步骤找到存放弹幕的真实url。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

分析弹幕真实url,我们发现,参数5981449914376200是视频tvid,参数62是tvid倒数4为的前两位,参数00是tvid的最后两位,.z前的参数1为视频总时长除以300秒向上取整。观察相邻两个弹幕文件包,可以看出爱奇艺每5分钟更新一次弹幕文件。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动

由于直接爬取出来的弹幕文件存在乱码,需要进行二进制编码,方可得到最终的弹幕数据。

2.爬虫实战

import zlib

import requests

1.爬取xml文件

def download_xml (url) :

bulletold = requests.get(url).content # 二进制内容

return zipdecode(bulletold)

def zipdecode (bulletold) :

'对zip压缩的二进制内容解码成文本'

decode = zlib.decompress(bytearray(bulletold), 15 + 32 ).decode( 'utf-8' )

return decode

for x in range( 1 , 12 ):

x是从1到12,12怎么来的,这一集总共57分钟,爱奇艺每5分钟会加载新的弹幕,57除以5向上取整

url = 'cmts.iqiyi.com/bullet/62/0… + str(x) + '.z'

xml = download_xml(url)

把编码好的文件分别写入17个xml文件中(类似于txt文件),方便后边取数据

with open( './aiqiyi/iqiyi' + str(x) + '.xml' , 'a+' , encoding= 'utf-8' ) as f:

f.write(xml)

2.读取xml文件中的弹幕数据数据

from xml.dom.minidom import parse

import xml.dom.minidom

def xml_parse (file_name) :

DOMTree = xml.dom.minidom.parse(file_name)

collection = DOMTree.documentElement

在集合中获取所有entry数据

entrys = collection.getElementsByTagName( "entry" )

print(entrys)

result = []

for entry in entrys:

content = entry.getElementsByTagName( 'content' )[ 0 ]

print(content.childNodes[ 0 ].data)

i = content.childNodes[ 0 ].data

result.append(i)

return result

with open( "aiyiqi_danmu.txt" , mode= "w" , encoding= "utf-8" ) as f:

for x in range( 1 , 12 ):

l = xml_parse( "./aiqiyi/iqiyi" + str(x) + ".xml" )

for line in l:

f.write(line)

f.write(

"n"

3.数据预览

 

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

 

点击并拖拽以移动



Tags:ython爬取   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论,这类爬虫得到的结果一般用于娱乐、舆情分析,如:新出一部火...【详细内容】
2021-11-15  Tags: ython爬取  点击:(336)  评论:(0)  加入收藏
1.前言爬取视频的时候发现,现在的视频都是经过加密(m3u8),不再是mp4或者avi链接直接在网页显示,都是经过加密形成ts文件分段进行播放。今天就教大家如果通过python爬取下载m3u8加...【详细内容】
2021-03-11  Tags: ython爬取  点击:(814)  评论:(0)  加入收藏
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例。编程工具:pycharmapp抓包工具:mitmproxyapp自动化工具:appium运行环境:windows10思路:私信小编01即可获取大量Pytho...【详细内容】
2020-12-02  Tags: ython爬取  点击:(93)  评论:(0)  加入收藏
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列。通过分析弹幕,我们...【详细内容】
2020-10-09  Tags: ython爬取  点击:(119)  评论:(0)  加入收藏
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者: Star_ZhaoPS:如有需要Python学习资料的小...【详细内容】
2020-09-04  Tags: ython爬取  点击:(64)  评论:(0)  加入收藏
GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上。想要从这里面挖掘(bai piao)数据,发个sci...【详细内容】
2020-05-15  Tags: ython爬取  点击:(144)  评论:(0)  加入收藏
最近加入了斗图群,发现自己的表情包太少了,斗不过他们。今天用python实现批量抓取百度图片里面的表情包和他们决战。需要实现的效果图: 目标 获取百度图片的URL,并且下载到本...【详细内容】
2020-04-11  Tags: ython爬取  点击:(49)  评论:(0)  加入收藏
本教程完全基于Python3版本,主要使用Chrome浏览器调试网页、Scrapy框架爬取数据、MongoDB数据库存储数据,选择这个组合的理由是成熟、稳定、快速、通行,此外可能会涉及Requests+BeautifulSoup解析、Redis数据库、Djiango...【详细内容】
2019-11-11  Tags: ython爬取  点击:(187)  评论:(0)  加入收藏
继续老套路,这两天我爬取了猪八戒上的一些数据 网址是:http://task.zbj.com/t-ppsj/p1s5.html,可能是由于爬取的数据量有点多吧,结果我的IP被封了,需要自己手动来验证解封ip,但这...【详细内容】
2019-10-29  Tags: ython爬取  点击:(169)  评论:(0)  加入收藏
#本代码作用:爬取贴吧的页面信息'''观察发现在百度贴吧搜索python时:1、百度贴吧第1页网址:http://tieba.baidu.com/f?ie=utf-8&kw=python&fr=search&red_tag=p010...【详细内容】
2019-10-18  Tags: ython爬取  点击:(272)  评论:(0)  加入收藏
▌简易百科推荐
近几年 Web3 被炒得火热,但是大部分人可能还不清楚什么是 Web3,今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么?与我们熟知的 Web1 和 Web2 又有什么区别呢?web3.0什么是...【详细内容】
2022-07-15  编程狮W3Cschool    Tags:Web3.0   点击:(2)  评论:(0)  加入收藏
1、让我们一起来看下吧,直接上图。 第一眼看到是不是觉得很高逼格,暗黑画风,这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统,而且还包含了许多非常强大...【详细内容】
2022-07-15  IT智能化专栏    Tags:AidLearning   点击:(2)  评论:(0)  加入收藏
真正的大师,永远都怀着一颗学徒的心! 一、项目简介 今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能 基于RBAC权限系统 录像回放 ...【详细内容】
2022-07-14  菜鸟程序猿    Tags:Python   点击:(3)  评论:(0)  加入收藏
前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接,废话不多说咱们直接进入主题吧。 一、什么是 PyMySQL?PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库,P...【详细内容】
2022-07-11  测试架构师百里    Tags:python   点击:(19)  评论:(0)  加入收藏
aiohttp什么是 aiohttp?一个异步的 HTTP 客户端\服务端框架,基于 asyncio 的异步模块。可用于实现异步爬虫,更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】
2022-07-11  VT漫步    Tags:aiohttp   点击:(15)  评论:(0)  加入收藏
今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中,比如爬虫,有的线程负责爬取数据,有的线程负责对爬取到的数据做处理(清洗、分类和入库)。假如他们是直接交互的,...【详细内容】
2022-07-06  VT漫步    Tags:Python Queue   点击:(34)  评论:(0)  加入收藏
继承:是面向对象编程最重要的特性之一,例如,我们每个人都从祖辈和父母那里继承了一些体貌特征,但每个人却又不同于父母,有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】
2022-07-06  至尊小狸子    Tags:python   点击:(25)  评论:(0)  加入收藏
点击上方头像关注我,每周上午 09:00准时推送,每月不定期赠送技术书籍。本文1553字,阅读约需4分钟 Hi,大家好,我是CoCo。在上一篇Python自动化测试系列文章:Python自动化测试之P...【详细内容】
2022-07-05  CoCo的软件测试小栈    Tags:Python   点击:(27)  评论:(0)  加入收藏
第一种方式:res = requests.get(url, params=data, headers = headers)第二种方式:res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】
2022-07-05  独钓寒江雪之IT    Tags:Python request   点击:(19)  评论:(0)  加入收藏
什么是python类的多态python的多态,可以为不同的类实例,或者说不同的数据处理方式,提供统一的接口。用比喻的方式理解python类的多态比如,同一个苹果(统一的接口)在孩子的眼里(类实...【详细内容】
2022-07-04  写小说的程序员    Tags:python类   点击:(28)  评论:(0)  加入收藏
站内最新
站内热门
站内头条