用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

时间：2020-10-09 10:39:51 来源：作者：

众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们可以快速洞察广大观众对于视频的看法。

阿喵通过一个关于《八佰》的视频弹幕数据，绘制了如下词云图，感觉效果还是可以的。

点击并拖拽以移动

这里多说一句，小编是一名Python/ target=_blank class=infotextkey>Python开发工程师，这里有我自己整理的一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编，并在后台私信小编：“01”即可领取。

海量的弹幕数据不仅可以绘制此类词云图，还可以调用百度AI进行情感分析。那么，我们该如何获取弹幕数据呢？本文运用Python爬取B站视频、腾讯视频、芒果TV和爱奇艺视频等弹幕，让你轻松获取主流视频网站弹幕数据。

一、B站视频弹幕

1.网页分析

本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗？》视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

点击并拖拽以移动

简单分析url参数，很显然，date参数表示发送弹幕的时间，其他参数均无变化。因此，只需要改变date参数，然后通过beautifulsoup解析到弹幕数据即可。

2.爬虫实战

import requests #请求网页数据

from bs4 import BeautifulSoup #美味汤解析数据

import pandas as pd

import time

from tqdm import trange #获取爬取速度

def get_bilibili_url (start, end) :

url_list = []

date_list = [i for i in pd.date_range(start, end).strftime( '%Y-%m-%d' )]

for date in date_list:

url = f"api.bilibili.com/x/v2/dm/his… {date} "

url_list.Append(url)

return url_list

def get_bilibili_danmu (url_list) :

headers = {

"user-agent" : "Mozilla/5.0 (macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/83.0.4103.116 Safari/537.36" ,

"cookie" : "你自己的" #Headers中copy即可

}

file = open( "bilibili_danmu.txt" , 'w' )

for i in trange(len(url_list)):

url = url_list[i]

response = requests.get(url, headers=headers)

response.encoding = 'utf-8'

soup = BeautifulSoup(response.text)

data = soup.find_all( "d" )

danmu = [data[i].text for i in range(len(data))]

for items in danmu:

file.write(items)

file.write( "n" )

time.sleep( 3 )

file.close()

if name == "main" :

start = '9/24/2020' #设置爬取弹幕的起始日

end = '9/26/2020' #设置爬取弹幕的终止日

url_list = get_bilibili_url(start, end)

get_bilibili_danmu(url_list)

print(

"弹幕爬取完成"

)

3.数据预览

点击并拖拽以移动

二、腾讯视频弹幕

1.网页分析

本文以爬取《脱口秀大会第3季》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

点击并拖拽以移动

通过删减各参数，发现仅有timestamp参数的变化会影响弹幕数据的爬取，且timestamp参数是首项为15，公差为30的等差数列。可以大胆猜测腾讯视频每30秒更新一页弹幕数据，该视频长度为12399秒。而数据格式为标准的json格式，因此json.loads直接解析数据即可。

2.爬虫实战

import requests

import json

import time

import pandas as pd

df = pd.DataFrame()

for page in range( 15 , 12399 , 30 ):

headers = { 'User-Agent' : 'Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' }

url = 'mfm.video.qq.com/danmu?otype… .format(page)

print( "正在提取第" + str(page) + "页" )

html = requests.get(url,headers = headers)

bs = json.loads(html.text,strict = False ) #strict参数解决部分内容json格式解析报错

time.sleep( 1 )

#遍历获取目标字段

for i in bs[ 'comments' ]:

content = i[ 'content' ] #弹幕

upcount = i[ 'upcount' ] #点赞数

user_degree =i[ 'uservip_degree' ] #会员等级

timepoint = i[ 'timepoint' ] #发布时间

comment_id = i[ 'commentid' ] #弹幕id

cache = pd.DataFrame({ '弹幕' :[content], '会员等级' :[user_degree],

'发布时间' :[timepoint], '弹幕点赞' :[upcount], '弹幕id' :[comment_id]})

df = pd.concat([df,cache])

df.to_csv( 'tengxun_danmu.csv' ,encoding = 'utf-8' )

print(df.shape)

3.数据预览

点击并拖拽以移动

三、芒果TV弹幕

1.网页分析

本文以爬取《乘风破浪的姐姐》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

点击并拖拽以移动

通过分析参数，我们可以发现，芒果TV会生成首项为0，公差为1的等差数列json弹幕文件，每个json文件存储前一分钟内所有的弹幕数据。弹幕数据存放格式为json，数据解析较为简单。

2.爬虫实战

import requests

import json

import pandas as pd

def get_mangguo_danmu (num1, num2, page) :

try :

url = 'bullet-ws.hitv.com/bullet/2020…

print( "正在爬取第" + str(page) + "页" )

danmuurl = url.format(num1, num2, page)

res = requests.get(danmuurl)

res.encoding = 'utf-8'

#print(res.text)

data = json.loads(res.text)

except :

print( "无法连接" )

details = []

for i in range(len(data[ 'data' ][ 'items' ])): # 弹幕数据在json文件'data'的'items'中

result = {}

result[ 'stype' ] = num2 # 通过stype可识别期数

result[ 'id' ] = data[ 'data' ][ 'items' ][i][ 'id' ] # 获取id

try : # 尝试获取uname

result[ 'uname' ] = data[ 'data' ][ 'items' ][i][ 'uname' ]

except :

result[ 'uname' ] = ''

result[ 'content' ] = data[ 'data' ][ 'items' ][i][ 'content' ] # 获取弹幕内容

result[ 'time' ] = data[ 'data' ][ 'items' ][i][ 'time' ] # 获取弹幕发布时间

try : # 尝试获取弹幕点赞数

result[ 'v2_up_count' ] = data[ 'data' ][ 'items' ][i][ 'v2_up_count' ]

except :

result[ 'v2_up_count' ] = ''

details.append(result)

return details

#输入关键信息

def count_danmu () :

danmu_total = []

num1 = input( '第一个数字' )

num2 = input( '第二个数字' )

page = int(input( '输入总时长' ))

for i in range(page):

danmu_total.extend(get_mangguo_danmu(num1, num2, i))

return danmu_total

def main () :

df = pd.DataFrame(count_danmu())

df.to_csv( 'mangguo_danmu.csv' )

if name == 'main' :

main()

3.数据预览

点击并拖拽以移动

四、爱奇艺弹幕

1.网页分析

本文以爬取《乐队的夏天第2季》第13期上视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url。

点击并拖拽以移动

分析弹幕真实url，我们发现，参数5981449914376200是视频tvid，参数62是tvid倒数4为的前两位，参数00是tvid的最后两位，.z前的参数1为视频总时长除以300秒向上取整。观察相邻两个弹幕文件包，可以看出爱奇艺每5分钟更新一次弹幕文件。

点击并拖拽以移动

由于直接爬取出来的弹幕文件存在乱码，需要进行二进制编码，方可得到最终的弹幕数据。

2.爬虫实战

import zlib

import requests

1.爬取xml文件

def download_xml (url) :

bulletold = requests.get(url).content # 二进制内容

return zipdecode(bulletold)

def zipdecode (bulletold) :

'对zip压缩的二进制内容解码成文本'

decode = zlib.decompress(bytearray(bulletold), 15 + 32 ).decode( 'utf-8' )

return decode

for x in range( 1 , 12 ):

x是从1到12，12怎么来的，这一集总共57分钟，爱奇艺每5分钟会加载新的弹幕,57除以5向上取整

url = 'cmts.iqiyi.com/bullet/62/0… + str(x) + '.z'

xml = download_xml(url)

把编码好的文件分别写入17个xml文件中（类似于txt文件），方便后边取数据

with open( './aiqiyi/iqiyi' + str(x) + '.xml' , 'a+' , encoding= 'utf-8' ) as f:

f.write(xml)

2.读取xml文件中的弹幕数据数据

from xml.dom.minidom import parse

import xml.dom.minidom

def xml_parse (file_name) :

DOMTree = xml.dom.minidom.parse(file_name)

collection = DOMTree.documentElement

在集合中获取所有entry数据

entrys = collection.getElementsByTagName( "entry" )

print(entrys)

result = []

for entry in entrys:

content = entry.getElementsByTagName( 'content' )[ 0 ]

print(content.childNodes[ 0 ].data)

i = content.childNodes[ 0 ].data

result.append(i)

return result

with open( "aiyiqi_danmu.txt" , mode= "w" , encoding= "utf-8" ) as f:

for x in range( 1 , 12 ):

l = xml_parse( "./aiqiyi/iqiyi" + str(x) + ".xml" )

for line in l:

f.write(line)

f.write(

"n"

3.数据预览

点击并拖拽以移动

Tags：ython爬取点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

用Python爬取六大平台的弹幕、评论，看这一篇就够了

今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论，这类爬虫得到的结果一般用于娱乐、舆情分析，如:新出一部火...【详细内容】

2021-11-15　　Tags: ython爬取点击:(336)　　评论:(0)　　加入收藏

Python爬取下载m3u8加密视频，原来这么简单

1.前言爬取视频的时候发现，现在的视频都是经过加密（m3u8），不再是mp4或者avi链接直接在网页显示，都是经过加密形成ts文件分段进行播放。今天就教大家如果通过python爬取下载m3u8加...【详细内容】

2021-03-11　　Tags: ython爬取点击:(814)　　评论:(0)　　加入收藏

使用python爬取抖音app视频

记录一下如何用python爬取app数据，本文以爬取抖音视频app为例。编程工具：pycharmapp抓包工具：mitmproxyapp自动化工具：appium运行环境：windows10思路：私信小编01即可获取大量Pytho...【详细内容】

2020-12-02　　Tags: ython爬取点击:(93)　　评论:(0)　　加入收藏

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们...【详细内容】

2020-10-09　　Tags: ython爬取点击:(119)　　评论:(0)　　加入收藏

python爬取自如网房源信息

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者： Star_ZhaoPS：如有需要Python学习资料的小...【详细内容】

2020-09-04　　Tags: ython爬取点击:(64)　　评论:(0)　　加入收藏

利用python爬取并翻译GEO数据库

GEO数据库是NCBI创建并维护的基因表达数据库，始于2000年，收录了世界各国研究机构提交的高通量基因表达数据，现芯片集数据量高达12万以上。想要从这里面挖掘（bai piao）数据，发个sci...【详细内容】

2020-05-15　　Tags: ython爬取点击:(144)　　评论:(0)　　加入收藏

python爬取海量表情包，让你成为群里的斗图王

最近加入了斗图群，发现自己的表情包太少了，斗不过他们。今天用python实现批量抓取百度图片里面的表情包和他们决战。需要实现的效果图：目标获取百度图片的URL，并且下载到本...【详细内容】

2020-04-11　　Tags: ython爬取点击:(49)　　评论:(0)　　加入收藏

如何用Python爬取网易云两百万热歌

本教程完全基于Python3版本，主要使用Chrome浏览器调试网页、Scrapy框架爬取数据、MongoDB数据库存储数据，选择这个组合的理由是成熟、稳定、快速、通行，此外可能会涉及Requests+BeautifulSoup解析、Redis数据库、Djiango...【详细内容】

2019-11-11　　Tags: ython爬取点击:(187)　　评论:(0)　　加入收藏

Python爬取大量数据时，如何防止IP被封 !这点非常重要

继续老套路，这两天我爬取了猪八戒上的一些数据网址是：http://task.zbj.com/t-ppsj/p1s5.html，可能是由于爬取的数据量有点多吧，结果我的IP被封了，需要自己手动来验证解封ip,但这...【详细内容】

2019-10-29　　Tags: ython爬取点击:(169)　　评论:(0)　　加入收藏

python爬取贴吧网页源代码

#本代码作用：爬取贴吧的页面信息'''观察发现在百度贴吧搜索python时：1、百度贴吧第1页网址：http://tieba.baidu.com/f?ie=utf-8&kw=python&fr=search&red_tag=p010...【详细内容】

2019-10-18　　Tags: ython爬取点击:(272)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真