不会代码,如何快速爬取知乎内容?

释迦牟尼
释迦牟尼 这家伙很懒,还没有设置简介...

0 人点赞了该文章 · 34 浏览

不会代码,如何快速爬取知乎内容,判断哪些问题值得回答。

很简单,用一个 chrome 浏览器插件 — web scraper

脚本简介

这个插件非常适合不会写代码的朋友去使用,其学习成本也很低,花几个小时足够了。当然我这篇帖子里不会去教大家怎么用他来编写脚本,只介绍一下用 web scraper + 知乎好物有什么可能性,提供一个思路。(学习教程可以看这个,一个网友写的,很详细:https://www.jianshu.com/p/76cad8e963b5)

我们做知乎好物,拓展新品类的时候心里可能会犯嘀咕,自己选的品,虽然佣金不错,但在知乎上是不是红海呢?

我看过一些圈友们分享的好物攻略,一般来说值得回答的问题有以下两个特点:

1.该问题最高赞的回答不超过50 — 否则靠互赞的那点量很难冲到第一

2.该问题的 (浏览量+关注者)/ 回答数 > 5000 — 这证明问题看的人比答的人多,不过这个标准不是绝对的

3.如果还有其他标准欢迎留言

所以我们需要爬取的就是问题的前三名点赞数、浏览量、关注者、总回答数这几项。

因为 web scraper 脚本是可以导入导出的,所以我拿我的脚本为例给大家讲讲怎么用。(脚本放在最下面)

脚本+知乎好物

前期准备:

安装谷歌插件“web scraper”和“知乎答题助手”

知乎答题助手

提取码:无 解压码:无 下载

 

脚本内容

{"_id":"zhihu-search","startUrl":["https://www.zhihu.com/search?type=content&q=%E7%8C%AB%E9%9B%B6%E9%A3%9F"],"selectors":[{"id":"main-page","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] span.Highlight","multiple":true,"delay":0},{"id":"text","type":"SelectorText","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] span.Highlight","multiple":true,"regex":"","delay":0},{"id":"secondpage","type":"SelectorLink","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] a","multiple":true,"delay":0},{"id":"observer","type":"SelectorText","parentSelectors":["secondpage"],"selector":"button strong","multiple":false,"regex":"","delay":0},{"id":"bebrowse","type":"SelectorText","parentSelectors":["secondpage"],"selector":"div.NumberBoard-item strong","multiple":false,"regex":"","delay":0},{"id":"link2","type":"SelectorLink","parentSelectors":["secondpage"],"selector":"div.Card:nth-of-type(1) a.QuestionMainAction","multiple":false,"delay":0},{"id":"agree","type":"SelectorText","parentSelectors":["link2"],"selector":".Voters button","multiple":true,"regex":"","delay":0}]}

1.假设我们要做的好物是“手表”,在知乎搜索“手表”,并复制其网址:https://www.zhihu.com/search?type=content&q=%E6%89%8B%E8%A1%A8

 

2.把网址复制到脚本里,替换 startUrl 后面的那段网址

3.等脚本跑完,选择 Export Sitemap,下载拿到爬取结果

4.我们把拿到的 excel 筛选处理一下,按浏览数量排序一下看看,发现虽然排名第一个的问题有一千多万的浏览量,但高赞有一万多赞,基本搞不过。只能往下翻一翻,看看有没有什么浏览量还可以的,但回答人数不多的问题。

比如这两个问题,浏览量有 30 w左右,且高赞也不过寥寥60几,争个前三还是很轻松的。

结尾

好啦,介绍到此为止,web scraper + 好物的玩法肯定不止于此,比如用 web scraper + 京东联盟,去爬取高佣金+销量不错的产品用于选品,不过我比较懒没动手去写。

@翻书风版权所有

下载权限

查看 ¥ 免费下载 评论并刷新后下载 登录后下载

查看演示

0"> {{attr.name}}: 您当前的等级为 登录后免费下载登录 小黑屋反思中,不准下载! 评论后刷新页面下载评论 支付¥以后下载 请先登录 您今天的下载次数(次)用完了,请明天再来 支付积分以后下载立即支付 支付以后下载立即支付 您当前的用户组不允许下载升级会员 您已获得下载权限 您可以每天下载资源次,今日剩余

发布于 2023-02-13 21:47

免责声明:

本文由 释迦牟尼 原创或收集发布于 火鲤鱼 ,著作权归作者所有,如有侵权可联系本站删除。

火鲤鱼 © 2025 专注小微企业服务 冀ICP备09002609号-8