最近《赘婿》很火?Python爬取视频弹幕

快来打我* 2022-11-07 14:41 461阅读 0赞

前言

最近爱奇艺独播热剧『赘婿』特别火,笔者也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!

最近《赘婿》很火?Python爬取视频弹幕

由于为了让小白彻底学会使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

  1. https://space.bilibili.com/523606542

Python学习交流群:1039649593

分析数据包

1.查找数据包

在浏览器里面按F12

最近《赘婿》很火?Python爬取视频弹幕

找到这类url

  1. https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br

2.分析弹幕链接

其中的/54/00/7973227714515400,才是有用的!!!!

爱奇艺的弹幕获取地址如下:

https://cmts.iqiyi.com/bullet/参数1\_300\_参数2.z

参数1是:/54/00/7973227714515400

参数2是:数字1、2、3…..

  1. 爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10

因此弹幕的链接如下:

  1. https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
  2. https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
  3. https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
  4. ......
  5. https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z

3.解码二进制数据包

通过弹幕链接下载的弹幕包是以z为后缀格式的文件,需要进行解码!

  1. def zipdecode(bulletold):
  2. '对zip压缩的二进制内容解码成文本'
  3. decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
  4. return decode

解码之后将数据保存成xml格式

  1. # 把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据
  2. with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
  3. f.write(xml)

最近《赘婿》很火?Python爬取视频弹幕

最近《赘婿》很火?Python爬取视频弹幕

解析xml

1.提取数据

最近《赘婿》很火?Python爬取视频弹幕

通过查看xml文件,我们需要提取的内容有1.用户id(uid)、2.评论内容(content)、3.评论点赞数(likeCount)。

  1. #读取xml文件中的弹幕数据数据
  2. from xml.dom.minidom import parse
  3. import xml.dom.minidom
  4. def xml_parse(file_name):
  5. DOMTree = xml.dom.minidom.parse(file_name)
  6. collection = DOMTree.documentElement
  7. # 在集合中获取所有entry数据
  8. entrys = collection.getElementsByTagName("entry")
  9. print(entrys)
  10. result = []
  11. for entry in entrys:
  12. uid = entry.getElementsByTagName('uid')[0]
  13. content = entry.getElementsByTagName('content')[0]
  14. likeCount = entry.getElementsByTagName('likeCount')[0]
  15. print(uid.childNodes[0].data)
  16. print(content.childNodes[0].data)
  17. print(likeCount.childNodes[0].data)

最近《赘婿》很火?Python爬取视频弹幕

保存数据

1.保存前工作

  1. import xlwt
  2. # 创建一个workbook 设置编码
  3. workbook = xlwt.Workbook(encoding = 'utf-8')
  4. # 创建一个worksheet
  5. worksheet = workbook.add_sheet('sheet1')
  6. # 写入excel
  7. # 参数对应 行, 列, 值
  8. worksheet.write(0,0, label='uid')
  9. worksheet.write(0,1, label='content')
  10. worksheet.write(0,2, label='likeCount')

导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)

2.写入数据

  1. for entry in entrys:
  2. uid = entry.getElementsByTagName('uid')[0]
  3. content = entry.getElementsByTagName('content')[0]
  4. likeCount = entry.getElementsByTagName('likeCount')[0]
  5. print(uid.childNodes[0].data)
  6. print(content.childNodes[0].data)
  7. print(likeCount.childNodes[0].data)
  8. # 写入excel
  9. # 参数对应 行, 列, 值
  10. worksheet.write(count, 0, label=str(uid.childNodes[0].data))
  11. worksheet.write(count, 1, label=str(content.childNodes[0].data))
  12. worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
  13. count=count+1

最后保存成弹幕数据集-李运辰.xls

  1. for x in range(1,11):
  2. l = xml_parse("./lyc/zx" + str(x) + ".xml")
  3. # 保存
  4. workbook.save('弹幕数据集-李运辰.xls')

最近《赘婿》很火?Python爬取视频弹幕

发表评论

表情:
评论列表 (有 0 条评论,461人围观)

还没有评论,来说两句吧...

相关阅读

    相关 PythonB站视频

    via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评