草庐IT

孔夫子

全部标签

孔夫子二手书采集

文章目录项目演示软件采集单本数据网页搜索数据对比使用场景概述部分核心逻辑Vb工程图数据导入与读取下拉框选择参数设置线程使用方法下载软件授权导入文件预览处理后的数据项目结构附件说明项目演示操作视频详见演示视频,以下为图文演示软件采集单本数据我们导入ISBN信息后,设置品相和价格筛选,待会方便进行数据比对。采集了4条数据进行比对,看看是否与官方一致网页搜索数据对比可见,脚本采集到的数据和官方一致,价格对应、店铺名、书籍名、出售数量全部对应使用场景软件主要是用于旧书信息采集,对接二手平台网站以实时获取数据。这个软件可能主要服务于两类人群,但是不局限于这些:二手书卖家:这些卖家可能拥有大量旧书,并希望

【Redis】孔夫子旧书网爬虫接入芝麻代理IP:代理IP利用效率最大化

背景:之前用过芝麻IP,写过这几篇文章《【Python】芝麻HTTP代理系列保姆级全套攻略(对接教程+自动领取每日IP+IP最优算法)》《【Python】记录抓包分析自动领取芝麻HTTP每日免费IP(成品+教程)》《爬虫增加代理池:使用稳定第三方芝麻代理IP教程(详细可用)》后面的项目都用他家的代理是因为,每天都有免费额度,不知不觉薅羊毛275天了,而且上次使用还不能生成代码,提交了建议后没想到真的实现了目录:设计思路:用户通过小程序访问孔夫子的图书详情接口,访问前通过检查redis判断是否有代理IP,没有则生成并记录去redis,有则直接使用,因为接口使用不会存在长时间连接的情况,基本都是一