知乎自动化爬虫，爬答案（包括点赞数、图片数、评论数）精选评论，selenium+mongo

edisonwong520 2025-04-24 原文

本代码详情及用法已上传到Github上：https://github.com/edisonwong520/zhihuSpider
如果觉得有用的，欢迎Star收藏，感谢～
本人菜鸟一名，闲来无事写来玩玩，有问题请多多指教～
Github个人主页主页上还有别的一些小工具～

介绍

知乎爬虫：爬指定问题的所有答案（包括点赞数、图片数、评论数），以及每一个答案下的精选评论、普通评论

A web spider which can grep all the answers,comments and thumb up numbers etc… of a specific question in Zhihu.

仅供学习交流，严禁用于商业用途，请于24小时内删除

环境

Python3 , 安装requirements.txt依赖
Mac OS Big Sur，别的系统也可以，需要下载对应版本的chrome driver即可
mongoDB，别的数据库也可以，自行改造即可（不选mysql是因为python sql还需要声明model太费劲，字段longtext长度可能不够，以及python orm对比gorm太难用了。。。）建议加上按【问题-用户名-时间戳】作唯一索引，防止插入重复数据

用法

改settings.py里的配置
手动在mac终端执行/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --remote-debugging-port=9222 --user-data-dir="/tmp/ChromeProfile"启动chrome，别的系统可自行google
在新的chrome里登陆自己的知乎账号
python3 main.py 执行代码
爬到自己满意的数据，然后手动结束脚本

执行结果

mongo里的数据，例：

{
    "_id" : "",
    "questionID" : 282620628,
    "user" : "xx",
    "thumbsupNum" : 18,
    "commentNum" : 11,
    "publishTimestamp" : "2019-07-31 10:50",
    "context" : "后悔，不是说我失败了...",
    "picNum" : 6,
    "highlight_comment" : [],
    "comment" : [ 
        {
            "timestamp" : "2019-08-02 13:31:56",
            "author" : "xx",
            "context" : "<p>虽然整后的照片还行...</p>"
        }
    ]
}

思路

debug启动chrome，python脚本attach 到chrome（本来想用golang 写的，但似乎golang selenium库没有attach remote debug url功能）
selenium，模拟不断按空格往下滑，解析html
性能：100条回答大概花了5分钟
其他：知乎反爬还是做的不错的。一开始想的是用api，结果发现api是动态加密header头的，懒得研究js代码里加密逻辑了。遂转用selenium，selenium启动的chrome估计是因为带有特殊user agent 之类的header头被知乎解析到并禁止爬虫。后面改成先手动起debug chrome，然后代码attach过去。期间发现评论的接口没有动态加密，所以可以用普通的get请求获取。

TODO

改成headless 浏览器（节省渲染的时间），代码自动登陆知乎，而不是手动登陆
改成并发爬取，优化爬取速度
现在是手动结束，之前试过判断页面高度与scroll bar 高度，当滑动到最底不能再滑动的时候，两个高度应该是相等的。但这个会有问题，就是中间页面会卡住，其实还能往下滑的。所以改成死循环，靠人手动停止
支持断点，从上次爬的位置继续爬，现在如果中间网络抖动啥的断开，那就悲剧了-。-

爬虫 selenium xff0c xff xff0 python mongodb 算法

有关知乎自动化爬虫，爬答案（包括点赞数、图片数、评论数）精选评论，selenium+mongo的更多相关文章

ruby-on-rails - 简单的 Ruby on Rails 问题——如何将评论附加到用户和文章？ - 2
我意识到这可能是一个非常基本的问题，但我现在已经花了几天时间回过头来解决这个问题，但出于某种原因，Google就是没有帮助我。(我认为部分问题在于我是一个初学者，我不知道该问什么......)我也看过O'Reilly的RubyCookbook和RailsAPI，但我仍然停留在这个问题上.我找到了一些关于多态关系的信息，但它似乎不是我需要的(尽管如果我错了请告诉我)。我正在尝试调整MichaelHartl'stutorial创建一个包含用户、文章和评论的博客应用程序(不使用脚手架)。我希望评论既属于用户又属于文章。我的主要问题是:我不知道如何将当前文章的ID放入评论Controller。
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
ruby - 如何使用 Selenium Webdriver 根据 div 的内容执行操作？ - 2
我有一个使用SeleniumWebdriver和Nokogiri的Ruby应用程序。我想选择一个类，然后对于那个类对应的每个div，我想根据div的内容执行一个Action。例如，我正在解析以下页面:https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=puppies这是一个搜索结果页面，我正在寻找描述中包含“Adoption”一词的第一个结果。因此机器人应该寻找带有className:"result"的div，对于每个检查它的.descriptiondiv是否包含单词“adoption
ruby - .gemrc 评论？ - 2
这是一个基本问题.gemrc文件中是否允许注释？如果是，你会怎么做？我这里查了没用docs.rubygems.org/read/chapter/11 最佳答案文档说:Theconfigfileitselfisin’’’YAML’’’format.这意味着您可以拥有commentsstartingwith#，例如:#Ilikedocsrdoc:--inline-source--line-numbers 关于ruby-.gemrc评论？，我们在StackOverflow上找到一个类似的问题
ruby - 下载位置 Selenium-webdriver Cucumber Chrome - 2
我将Cucumber与Ruby结合使用。通过Selenium-Webdriver在Chrome中运行测试时，我想将下载位置更改为测试文件夹而不是用户下载文件夹。我当前的chrome驱动程序是这样设置的:Capybara.default_driver=:seleniumCapybara.register_driver:seleniumdo|app|Capybara::Selenium::Driver.new(app,:browser=>:chrome,desired_capabilities:{'chromeOptions'=>{'args'=>%w{window-size=1920,1
ruby - 如何在 ruby 中复制目录结构，不包括某些文件扩展名 - 2
我想编写一个ruby脚本来递归复制目录结构，但排除某些文件类型。因此，给定以下目录结构:folder1folder2file1.txtfile2.txtfile3.csfile4.htmlfolder2folder3file4.dll我想复制这个结构，但不包含.txt和.cs文件。因此，生成的目录结构应如下所示:folder1folder2file4.htmlfolder2folder3file4.dll 最佳答案您可以使用查找模块。这是一个代码片段:require"find"ignored_extensions=[".cs"
ruby-on-rails - Ruby method_added 回调不触发包括模块 - 2
我想写一点“Deprecate-It”库并经常使用“method_added”回调。但是现在我注意到在包含模块时不会触发此回调。是否有任何回调或变通方法，以便在某些内容包含到自身时通知类“Foobar”？用于演示的小Demo:#IncludingModulswon'ttriggermethod_addedcallbackmoduleInvisibleMethoddefinvisible"Youwon'tgetacallbackfromme"endendclassFoobardefself.method_added(m)puts"InstanceMethod:'#{m}'addedto'
ruby - 正则表达式匹配包括新行 - 2
我有一个正则表达式来获取"*"之间的所有内容:str="Donecsedodiodui.*Nullamiddoloridnibhultriciesvehiculaut*"str.match(/\*(.*)\*/)[1]我希望匹配能够包含换行符。我该怎么做？最佳答案您需要使用允许点匹配新行的m选项:Donecsedodiodui.*Nullamiddoloridnibhultriciesvehiculaut*regexstr.match(/\*(.*)\*/m)[1]实例:http://www.rubular.com/r/11u9
ruby - 生成X和Y之间的随机数，不包括某些数字 - 2
有没有办法在ruby中生成介于1-100但不包括20、30和40之间的随机数？我可以做类似的事情defrandom_numberrandom_number=rand(100)whilerandom_number==20||30||40random_number=rand(100)endreturnrandom_numberend...但这似乎不是很有效(再加上那个特定的例子可能根本行不通)。有没有更简单的方法？任何帮助深表感谢! 最佳答案创建一个1到100的数组。从该数组中删除不需要的元素。然后从数组中选择一个随机数。([*1
ruby - Selenium 的最佳编程语言是什么？ - 2
Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。9年前关闭。我打算学习Seleni

知乎自动化爬虫，爬答案（包括点赞数、图片数、评论数）精选评论，selenium+mongo

介绍

环境

用法

执行结果

思路

TODO

有关知乎自动化爬虫，爬答案（包括点赞数、图片数、评论数）精选评论，selenium+mongo的更多相关文章

随机推荐