欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。
BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?赛博朋克,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。
(资料图片)
笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。
另外,文末点下「赞」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。
假如想分析某个小红书大 v 的数据,即主要分析它主页发布过的笔记、点赞过和收藏过的笔记,来一瞥流量之门,首先就需要将这些数据全部抓取保存到本地。
或者不习惯小红书的社区调性,家人们,谁懂啊,单纯想把自己发布的内容备份下来,再也不想打开这个 app 了。
今天分享的小红书爬虫系列之小红书主页备份计划,就是解决诸如此类的需求。
以华为在小红书的官方账号「华为终端」为例,我们导出它主页的发布和收藏过的帖子(这个账号没有点赞过别人的帖子或者不可见)
发布过的笔记首先是「华为终端」发布过的笔记,导出到 csv 一共 1300 余条,每一条笔记都有笔记链接、笔记标题、笔记时间、笔记内容、ip 属地、话题 tag 列表、艾特用户列表、无水印封面图、无水印笔记内图、视频链接、转发数、点赞数、评论数、收藏数、作者链接、作者昵称等几十个字段,具体可以参见下图。
高清封面和内容图片链接可以无损下载到本地。
文本内容可以用来交给 GPT 训练小红书文案生成器。
也可以按照转发数、点赞数、评论数、收藏数排序选中几篇爆款笔记分析~
ip 属地几乎都在北京,标题都是华为的新品简介,没啥好分析的。
评论也可以全部下载下来,进行文本分析。
收藏过的笔记收藏过的笔记导出结果如下,一共 100 来条,字段信息和上面发布的笔记一样。
本质也是笔记,也可以进行图片下载、视频下载、评论导出等等 action 和文本分析可视化。
点赞过的笔记点赞过的笔记也能导出,「华为终端」没有点赞过笔记或者不可见。
如果你对这个有对服务和工具的需求,欢迎加我微信 「2391527690 」备注 「小红书主页备份 」,或者直接扫码下方二维码,伸手党勿扰~
往期精选
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络自研小红书评论区自动回复软件,于繁杂的客服流水作业中抽身小红书帖子和评论自助提取工具