资讯推荐:源代码和工具 | 2023 bilibili 视频评论爬虫，单条视频最多可爬取 10000 条评论

2023-06-22 19:39:14 程序员客栈

欢迎关注公众号「月小水长」，唯一笔者是BuyiXiao，又名小布衣、肖不已。
BuyiXiao，何许人也？本衡州一乡野村夫，身高八尺不足，年方二十有余；弱冠之年曾求学于潭州，为谋生计，背井离乡，远赴京畿，我本南人，不习北土，兼有故友，威逼利诱，急于星火，遂下岭南，打工未半，中道创业，所为何业？赛博朋克，智能硬件；假工程师之名，行农民工之实，满腹经纶，无用书生，善于自黑，贻笑大方。
笔者水平有限，可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠，公众号文章诸多遗漏或不妥之处，可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。

【资料图】
另外，文末点下「赞」和「在看」，这样每次新文章推送，就会第一时间出现在你的订阅号列表里。

我帮一些没玩过 b 站的朋友问了 ChatGPT，b 站是什么，它是这么回答我的。

Bilibili 是一家中国的视频分享平台，也被称为“哔哩哔哩”或“B站”，其社区调性可以用年轻、有趣、创新、多元等词语来描述。Bilibili的用户主要是年轻人，其中以学生和年轻白领居多，他们倾向于追求个性化、独特的内容，同时对新鲜事物和潮流保持敏感。
在 Bilibili 上，用户可以创建自己的账号并上传、观看、评论各种类型的视频，包括动画、游戏、音乐、舞蹈、电影等等。Bilibili注重用户互动，鼓励用户之间进行交流和分享，因此 Bilibili 社区中的用户活跃度较高。

正因为 b 站用户群体巨大，公众号后台也有不少读者留言需要 b 站爬虫的，今天正是分享的是 b 站评论爬虫，可以一键导出指定 b 站视频的评论。

以前分享过 b 站评论的工具（开箱即用的 B 站评论抓取工具），到第今年三个年头已经失效，有一些 bug 需要修复今天也算是这篇分享的延续，同时文末附上源代码和 exe 工具链接，不想看细节的可以直接拉到文末。

测试了下这份代码/工具大概单个视频最多能爬到 10000 条以上的评论。

b 站没啥反爬的，带个 User-Agent 就能请求数据。

headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3970.5Safari/537.36","Referer":"https://www.bilibili.com/"}

请求评论数据主要注意下 F12 寻找评论的 url 地址即可。

数据保存时记得把时间戳转成时间字符串，

defintToStrTime(a):b=time.localtime(a)#转为日期字符串c=time.strftime("%Y/%m/%d%H:%M:%S",b)#格式化字符串returnc

如果以{标题}.csv 命名字符串，记得先把标题处理下以符合文件命名的规则。

defvalidateTitle(title):re_str=r"[\/\\\:\*\?\"\<\>\|]"#"/\:*?"<>|"new_title=re.sub(re_str,"_",title)#替换为下划线returnnew_title

用个 for 循环遍历要爬取的视频的 bv 号，实现一次爬取多个视频的评论的功能。

最后构造 dataframe，边爬取边保存。

需要注意的是，该爬虫没有抓取全部二级评论（回复，楼中楼），只是回复的前 3 条，如需爬取所有的自行展开回复，扩展该爬虫代码即可。

以 b 站下面这个热门视频为例，

标题：不开除张某保研资格，就是寒了天下人的心！
链接：https://www.bilibili.com/video/BV1Zo4y1N7f1
BV 号：BV1Zo4y1N7f1

抓取的结果字段包括评论时间、评论用户名、评论内容和评论点赞数四个字段，如下图所示。

关于这个 CSV 结果文件的获取可以查看今天的另外一篇推送。

源代码已经打包成 exe，不需要 Python 环境，双击即可运行，需要的读者公众号后台回复【2023 b站评论提取工具】即可获取下载链接。

最后附上源代码，欢迎点赞、转发、留言，支持原创更好的创作。

#-*-coding:utf-8-*-#作者:inspurer(月小水长)#创建时间:2020/10/3023:48#运行环境Python3.6+#githubhttps://github.com/inspurer#qq邮箱2391527690@qq.com#微信公众号月小水长(ID:inspurer)#文件备注信息回复没有展开importrequestsimportosfromtimeimportsleepimportjsonimporttimeimportpandasaspdimportredefintToStrTime(a):b=time.localtime(a)#转为日期字符串c=time.strftime("%Y/%m/%d%H:%M:%S",b)#格式化字符串returncheaders={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.0.3970.5Safari/537.36","Referer":"https://www.bilibili.com/"}defvalidateTitle(title):re_str=r"[\/\\\:\*\?\"\<\>\|]"#"/\:*?"<>|"new_title=re.sub(re_str,"_",title)#替换为下划线returnnew_titledefmain():save_folder="Comment"ifnotos.path.exists(save_folder):os.mkdir(save_folder)bvs=["BV1Zo4y1N7f1"]forbvinbvs:print(bv)response=requests.get(url="https://www.bilibili.com/video/{}".format(bv),headers=headers)res=re.findall("<script>window.__INITIAL_STATE__=(.*)?;\(function\(\)",response.text,re.S)json_data=json.loads(res[0])if"message"injson_data["error"]:print(json_data["error"]["message"])continueaid=json_data["aid"]title=json_data["videoData"]["title"]title=validateTitle(title)video_info_url="https://api.bilibili.com/x/web-interface/archive/stat?aid={}".format(aid)res_json=requests.get(url=video_info_url,headers=headers).json()like_count,coin_count,collection_count=res_json["data"]["like"],res_json["data"]["coin"],res_json["data"]["favorite"]#print(aid,title,like_count,coin_count,collection_count)comment_url="https://api.bilibili.com/x/v2/reply?callback=jQueryjsonp=jsonp&pn={}&type=1&oid={}&sort=2&_=1594459235799"response=requests.get(url=comment_url.format(1,aid),headers=headers)total_page=json.loads(response.text)["data"]["page"]["count"]//20+1page=1is_root,uname,comments,times,likes=[],[],[],[],[]whileTrue:data=json.loads(response.text)["data"]["replies"]print(data)ifnotdata:data=json.loads(response.text)["data"]if"hots"indata.keys():data=data["hots"]else:breakforrowindata:print("根评论",row["member"]["uname"],row["content"]["message"])is_root.append("是")times.append(intToStrTime(row["ctime"]))uname.append(row["member"]["uname"])comments.append(row["content"]["message"])likes.append(row["like"])ifrow.get("replies"):forcrowinrow["replies"]:is_root.append("否")times.append(intToStrTime(crow["ctime"]))uname.append(crow["member"]["uname"])comments.append(crow["content"]["message"])likes.append(crow["like"])print("---子评论",crow["member"]["uname"],crow["content"]["message"])page+=1ifpage>total_page:breaksleep(1)response=requests.get(url=comment_url.format(page,aid),headers=headers)#边爬取边保存df=pd.DataFrame({"评论时间":times,"评论者":uname,"评论内容":["".join(comment.split())forcommentincomments],"点赞数":likes})df.to_csv(f"{save_folder}/{title}.csv",encoding="utf-8-sig",index=False)print(f"\n\n已经保存{df.shape[0]}条评论到{save_folder}/{title}.csv\n\n")sleep(1)#每抓完1条视频的评论休眠10ssleep(10)if__name__=="__main__":main()

往期精选
自研小红书评论区自动回复软件，于繁杂的客服流水作业中抽身2023 微博评论爬虫 | 突破 1000 页限制，抓取 10w 条微博评论CBDB | 可视化历史名人的关系和足迹小红书帖子和评论自助提取工具

当前速看：注意！科力尔：监事曾利刚计划减持公司股份不超过6.3万股

医疗事故鉴定不服该怎么办 头条焦点

海南又一临床真实世界数据应用试点品种获批上市_消息

@柳州人，首套房贷利率低至3.6%，还有这个重磅消息！

世界观热点：中国哪家的猪预混料比较好 (猪十大预混料品牌大全)

世界通讯！天天速看：世界观速讯丨环球快播：世界新动态：又一批货代将暴雷？3家公司发出声明_全球播报

天天快报!银川多家餐饮店使用液化气罐，老板称管道燃气初装费需要三四万，燃气公司称现在初装费比以前便宜

记者实地探访银川烧烤店爆炸事故现场 当前热门

快来打Call！6个广州地标产品亮相首届地标广货手信节

热点聚焦：TSA：美航空旅客安检人数创疫情以来单日最高水平

交大昂立两大股东角力，退市警钟响起，股民怎么办？ 天天亮点

世界速讯：信息时代,如何守护我们的肖像权

【焦点热闻】帕金斯：湖人应该追求追梦 用他和AD来对抗约基奇

全球观天下！“乌珠穆沁白牛”为何这么“牛”？

乌克兰国家紧急服务中心：赫尔松地区被疏散灾民逐渐开始返乡 每日关注

辽宁昌图县银校共建送安康 环球快播

中国恒大：预期在7月31日之前发布2021年、2022年中期及2022年业绩-当前消息

创谈｜技术进步如何赋能文学创作|世界速读

这位95后女生用AI帮助盲人和健全人比射箭

坦克500 Hi4-T将于6月26日正式上市

情系端午，普陀区文明出游蔚然成风

全球速讯：南财快评：物流高质量发展应如何推进？

【全球时快讯】中航光电:液冷业务是公司重点培育的高景气业务

楚风·君思⑮丨汨罗江上“水祭”大典，万人齐诵追思屈子_焦点精选

世界观察：民生银行济南槐荫支行开展“普及金融知识 守住钱袋子”宣传活动

国乒主力来了，樊振东孙颖莎领衔，6月26日萨格勒布站开赛-热点聚焦

市水利和湖泊局组织开展“端午安康 洁净长江”志愿服务活动

我给车企做乙方，账期最长拖六年，报价年降10% 世界时快讯

航空工业哈飞：复材精准制造的“水晶球”和“高速路”

在黄色网站上发现疑似他人被迷奸的视频 我该怎么办 我该报警吗

经济日报：拓宽农村金融“可为”之路_世界快消息

“北极乡”纳凉、山区体验满族风情，端午来怀柔玩转新奇特

税收服务保驾护航 企业发展迈入快车道

世界今头条！记者实测：7分18秒跑完，今天的辽阳路如此“丝滑”

跑出项目建设“加速度” 中建海峡一线建设者坚守岗位过端午

全球快播：*ST京蓝最新公告：股东殷晓东拟减持不超1%

万足念什么趸交怎么念（万足念什么）

广西壮族自治区苍梧县发布雷电黄色预警

连州法院拍了拍你，这次法院开放日很精彩！-环球热闻

赛季结束！金球奖终极解析：梅西哈兰德姆巴佩PK 谁能获奖？

晃晕我！新三巨头出炉！重磅交易三次反转！

环球时讯：从浙江这场高规格赛事，看到未来发展趋势

有一种叫云南的生活｜夏荷初绽！玉溪这里的荷花美极了_滚动

宝山80后“花农”和他的多肉花园

环球视讯！彭州市隆丰中学开展“6.26”禁毒教育宣传系列活动

沈阳“相声江湖”演艺综合体项目在大东区启动

男子不满邻居外孙隔窗裸露身体让自己幼女看见，杀邻居全家|环球视点

天天滚动:私家车疾速驶入公安检查站，一场紧急救援在成都街头上演

湘潭：公益集市迎“闹”端午（图）_当前观点

被吹爆的文班亚马 究竟是下一个詹姆斯还是奥登？

智慧物流“含兽量”走高，福佑卡车等上榜2023中国独角兽企业 环球快播报|天天关注

平均分线差怎么算 平均分线差是什么意思

环球最资讯丨怀旧服德鲁伊天赋技能详解_一个老德鲁伊关于天赋选择

环球动态:新的Smart Forease +概念得到了Speedster处理

近五年“最火”端午开启：预计1亿人次出游，民宿价格高于“五一”

儋州有发展吗，兆南熙园养优势讲解

6月21日基金净值：景顺长城核心招景混合A最新净值0.6547，跌1.67%

蔚来手机卖7000多 下月发布_天天资讯

记者：柏林联合正式报价戈森斯，国米要求1500-1800万欧转会费

一代沙雕左右为难如何通关

取消就业报到证 人社部门提示毕业生转档要点

中新集团子公司拟为中新旭能提供不超过6000万元担保 视讯

广汉到广元高铁时刻表查询_广元市有几个火车站-天天热议

加速信创生态融合 天翼企业云盘成功入选上海信创工委会信创产品目录 世界独家

夏至，“武汉之夏”如约而至，200余场活动陪市民消夏

今日热搜：第23162期福彩3d、排列三晒票：人这一生，活得知足就是幸福

我们什么时候会推出《最终幻想 9》重制版？

最便宜的理想SUV曝光，售价30万内又将成爆款？

天天新消息丨励志的歌最好听最流行_励志的歌

坚持爱发电十年，比Zlib***还流批！|每日消息

【环球热闻】端午·安康｜悠悠艾草香 浓浓家国情

“调”出研究之“实味” 速看料

中国天眼FAST发现轨道周期最短脉冲星系统 为经典双星演化理论提供关键证据

环球快讯:迷幻之树魔法屋，当离婚的女人遇上生日礼物创意时，你该送什么？

王导：原油通道内运行，72.8下方空

泰国五月份汽车生产环比增长16.48%，同比增长0.55%，四月份分别为下降0.13%和下降6.14%。|百事通

布林肯访华“最大要求”被拒，中美军事交流不再是小问题

临沂发泄屋加盟_发泄屋加盟 全球视点

世界热推荐：骗取30辆厢式货车融资贷款 涉案500余万元 淄博警方破获阴阳合同诈骗案

当前播报:去日本读研究生需要上一年语言大学吗-去日本读研究生费用

医疗事故鉴定不服该怎么办头条焦点

记者实地探访银川烧烤店爆炸事故现场当前热门

交大昂立两大股东角力，退市警钟响起，股民怎么办？天天亮点

【焦点热闻】帕金斯：湖人应该追求追梦用他和AD来对抗约基奇

乌克兰国家紧急服务中心：赫尔松地区被疏散灾民逐渐开始返乡每日关注

辽宁昌图县银校共建送安康环球快播

世界观察：民生银行济南槐荫支行开展“普及金融知识守住钱袋子”宣传活动

市水利和湖泊局组织开展“端午安康洁净长江”志愿服务活动

在黄色网站上发现疑似他人被迷奸的视频我该怎么办我该报警吗

税收服务保驾护航企业发展迈入快车道

被吹爆的文班亚马究竟是下一个詹姆斯还是奥登？

智慧物流“含兽量”走高，福佑卡车等上榜2023中国独角兽企业环球快播报|天天关注

平均分线差怎么算平均分线差是什么意思

蔚来手机卖7000多下月发布_天天资讯

取消就业报到证人社部门提示毕业生转档要点

中新集团子公司拟为中新旭能提供不超过6000万元担保视讯

加速信创生态融合天翼企业云盘成功入选上海信创工委会信创产品目录世界独家

【环球热闻】端午·安康｜悠悠艾草香浓浓家国情

中国天眼FAST发现轨道周期最短脉冲星系统为经典双星演化理论提供关键证据

临沂发泄屋加盟_发泄屋加盟全球视点

世界热推荐：骗取30辆厢式货车融资贷款涉案500余万元淄博警方破获阴阳合同诈骗案

东阿阿胶因未按时履行法律义务被强制执行1041万一季度末账上现金60亿-天天看热讯

2022~2023年山东养老金调整细则新消息和山东养老金上调方案最新消息（全文）每日热闻

2023河北养老金上调方案何时出炉河北养老金上调最新消息（2022版）-当前焦点

南京第十五届高淳固城湖水慢城荷花旅游节开幕将打造自主品牌荷花节IP

电锯惊魂8未删减版百度云_电锯惊魂8百度云当前速讯

“优秀文旅品牌案例名单”发布武威荣膺“最佳全域旅游休闲目的地”

proforma invoice有法律效力吗_外贸的pro forma invoice 是什么东西客户要我提供给他|世界讯息

【世界聚看点】档案学学什么课程及毕业薪酬岗位去向就业前景怎么样

宋都股份延期至6月30日回复2022年年报问询函报资讯

哈尔滨毕业生档案有什么作用全球今头条

新安中心幼儿园：“学习民法典，护航新生活”——无锡市新安中心幼儿园法制宣讲活动每日动态

兰亭小学：养正少年拾级而上新视野

医疗事故鉴定不服该怎么办头条焦点

东华理工大学：创新驱动勇攀高峰

天天动态:文化“大餐”庆端午佳节北京市将推1700余场文旅活动

升级迭代加速国产AI大模型激战正酣！-世界快播报

这届年轻人，已经心甘情愿吃“剩菜”了热闻

分家产家产子女该哪位继承请回复环球观焦点

庭院植物风水禁忌庭院风水绿植

接班人在哪里？武磊昨晚进球前1镜头让人心酸：他真的老了！世界播资讯

一心堂开店提速：新投近6000万并购曾称今年将拓展门店近2000家