不会代码,如何快速爬取知乎内容?
不会代码,如何快速爬取知乎内容,判断哪些问题值得回答。
很简单,用一个 chrome 浏览器插件 — web scraper
脚本简介这个插件非常适合不会写代码的朋友去使用,其学习成本也很低,花几个小时足够了。当然我这篇帖子里不会去教大家怎么用他来编写脚本,只介绍一下用 web scraper + 知乎好物有什么可能性,提供一个思路。(学习教程可以看这个,一个网友写的,很详细:https://www.jianshu.com/p/76cad8e963b5)
我们做知乎好物,拓展新品类的时候心里可能会犯嘀咕,自己选的品,虽然佣金不错,但在知乎上是不是红海呢?
我看过一些圈友们分享的好物攻略,一般来说值得回答的问题有以下两个特点:
1.该问题最高赞的回答不超过50 — 否则靠互赞的那点量很难冲到第一
2.该问题的 (浏览量+关注者)/ 回答数 > 5000 — 这证明问题看的人比答的人多,不过这个标准不是绝对的
3.如果还有其他标准欢迎留言
所以我们需要爬取的就是问题的前三名点赞数、浏览量、关注者、总回答数这几项。
因为 web scraper 脚本是可以导入导出的,所以我拿我的脚本为例给大家讲讲怎么用。(脚本放在最下面)
脚本+知乎好物前期准备:
安装谷歌插件“web scraper”和“知乎答题助手”
知乎答题助手
提取码:无 解压码:无 下载
脚本内容
{"_id":"zhihu-search","startUrl":["https://www.zhihu.com/search?type=content&q=%E7%8C%AB%E9%9B%B6%E9%A3%9F"],"selectors":[{"id":"main-page","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] span.Highlight","multiple":true,"delay":0},{"id":"text","type":"SelectorText","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] span.Highlight","multiple":true,"regex":"","delay":0},{"id":"secondpage","type":"SelectorLink","parentSelectors":["_root"],"selector":"[itemprop='zhihu:question'] a","multiple":true,"delay":0},{"id":"observer","type":"SelectorText","parentSelectors":["secondpage"],"selector":"button strong","multiple":false,"regex":"","delay":0},{"id":"bebrowse","type":"SelectorText","parentSelectors":["secondpage"],"selector":"div.NumberBoard-item strong","multiple":false,"regex":"","delay":0},{"id":"link2","type":"SelectorLink","parentSelectors":["secondpage"],"selector":"div.Card:nth-of-type(1) a.QuestionMainAction","multiple":false,"delay":0},{"id":"agree","type":"SelectorText","parentSelectors":["link2"],"selector":".Voters button","multiple":true,"regex":"","delay":0}]}1.假设我们要做的好物是“手表”,在知乎搜索“手表”,并复制其网址:https://www.zhihu.com/search?type=content&q=%E6%89%8B%E8%A1%A8
2.把网址复制到脚本里,替换 startUrl 后面的那段网址
3.等脚本跑完,选择 Export Sitemap,下载拿到爬取结果
4.我们把拿到的 excel 筛选处理一下,按浏览数量排序一下看看,发现虽然排名第一个的问题有一千多万的浏览量,但高赞有一万多赞,基本搞不过。只能往下翻一翻,看看有没有什么浏览量还可以的,但回答人数不多的问题。
比如这两个问题,浏览量有 30 w左右,且高赞也不过寥寥60几,争个前三还是很轻松的。
好啦,介绍到此为止,web scraper + 好物的玩法肯定不止于此,比如用 web scraper + 京东联盟,去爬取高佣金+销量不错的产品用于选品,不过我比较懒没动手去写。
@翻书风版权所有