抓取_草庐IT

python - 抓取需要使用 Python 登录的站点

我为我的网站使用了多个广告网络，为了查看我赚了多少钱，我需要每天登录每个广告网络以计算值(value)。我正在考虑制作一个Python脚本来为我完成此操作以快速获得总数。我知道我需要执行POST请求才能登录，然后存储我返回的cookie，然后在传递这些cookie时GET请求报告页面。当我手动浏览网站时，用Python复制我正在做的事情的最方便的方法是什么？最佳答案看看这是否适合你:http://stockrt.github.com/p/emulating-a-browser-in-python-with-mechanize/

python - 使用 selenium 从 Highcharts 抓取数据

我正在尝试从highchart中抓取数据。我查看了类似的问题，但不了解script_execute的工作原理或如何使用浏览器检测js。这是我当前的代码:fromseleniumimportwebdriverfromselenium.webdriver.common.keysimportKeys#Coresettingschrome_path=r"C:\Users\X\Y\chromedriver_win32\chromedriver.exe"driver=webdriver.Chrome(chrome_path)driver.implicitly_wait(15)stats_url='

Highcharts selenium driver section code python

python - 使用 scrapy-splash 会显着影响抓取速度吗？

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭4年前。Improvethisquestion到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，我的爬虫速度会受到显着影响吗？用scrapy抓取vanillahtml页面与用scrapy-splash渲染html所花费的时间有什么区别？最后，scrapy-splash和Selenium相比如何？

scrapy-splash python section class notice selenium web-scraping scrapy

python - 如何从抓取的链接 [Python] 下载 PDF？

我正在用Python制作一个PDFWebScraper。本质上，我试图从我的一门类(class)中抓取所有的讲义，这些讲义都是PDF格式的。我想输入一个url，然后获取PDF并将它们保存在笔记本电脑的一个目录中。我看过几个教程，但我不完全确定如何去做。StackOverflow上的所有问题似乎都对我没有帮助。这是我目前所拥有的:importrequestsfrombs4importBeautifulSoupimportshutilbs=BeautifulSoupurl=input("EntertheURLyouwanttoscrapefrom:")print("")suffix=".p

python section link urlretrieve pdf web-scraping beautifulsoup python-requests

python http/udp bittorrent 跟踪器抓取库

我有一个torrentinfo_hashes列表。对于每个info_hash，我都有一个与该info_hash对应的跟踪器列表。我想做的是抓取列表中的每个跟踪器以获取播种器/leecher/完成计数。但是，我不想自己尝试编写此代码，因为我确定此代码已在其他地方实现有人知道可以抓取http://和udp://跟踪器的python库吗？我一直在为这个项目的其他部分使用libtorrent，但是它只能从有效的torrent_handle中抓取跟踪器(而且我不想为了抓取跟踪器而必须将这些info_hashes添加到libtorrentsession中，因为它会开始下载我不需要的文件)

跟踪器 bittorrent section info_hashes python tracker libtorrent

python - 链接到事件点击时如何从网站抓取数据？

我正在尝试从Tripadvisor.com网页上抓取/提取公司/酒店的网站。我在检查页面时没有看到网站网址。关于如何使用python提取网站url的任何想法？提前致歉，因为我最近才开始“使用Python进行网络抓取”。谢谢。例如请看图中的两个红色箭头。当我选择网站链接时，它会将我带到“http://www.i-love-my-india.com/”'-这就是我想使用Python提取的内容。Tripadvisorurl 最佳答案使用Selenium试试这个:importtimefromseleniumimportwebdriverb

python 接到 browser section noreferrer web-scraping scrapy extract

python - 如何抓取字符串中间的数字？ (Python)

randomstringthisis34thestring3that,ineed234randomstringrandomstringrandomstringrandomstringrandomstringthisis1thestring34that,ineed22randomstringrandomstringrandomstringrandomstringrandomstringthisis35thestring55that,ineed12randomstringrandomstringrandomstringrandomstring在一个字符串中有多行。其中一行重复但每次都有不同

python string random section regex

使用 Scrapy 抓取 Python 数据

我想从具有TextFields、Buttons等的网站上抓取数据。我的要求是填写文本字段并提交表单以获取结果，然后从结果页面抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？(已编辑)我想从以下网站抓取数据:http://a836-acris.nyc.gov/DS/DocumentSearch/DocumentType我的要求是从ComboBoxes中选择值并点击搜索按钮并从结果页面中抓取数据点。附言我正在使用seleniumFirefox驱动程序从其他网站抓取数据，但该解决方案并不好，因为seleniumFirefox驱动程序依赖于

Scrapy Python 39 34 doc_type_name python-2.7 web-scraping

python urllib2 - 在抓取之前等待页面完成加载/重定向？

我正在学习制作网络抓取工具，并想为个人项目抓取TripAdvisor，使用urllib2抓取html。但是，我遇到了一个问题，使用下面的代码，我返回的html不正确，因为页面似乎需要一秒钟才能重定向(您可以通过访问url来验证这一点)-而我得到了代码来自最初短暂出现的页面。是否有一些行为或参数可以设置以确保页面在获取网站内容之前已完全完成加载/重定向？importurllib2frombs4importBeautifulSoupbostonPage=urllib2.urlopen("http://www.tripadvisor.com/HACSearch?geo=34438#02,13

urllib2 python code BeautifulSoup

python - 使用 Beautiful Soup 保存实体进行抓取

我想从网上抓取一张表格并保留实体完好无损，以便我以后可以重新发布为HTML。BeautifulSoup似乎正在将这些转换为空格。示例:frombs4importBeautifulSouphtml=""html+=" hello "html+=""soup=BeautifulSoup(html)table=soup.find_all('table')[0]row=table.find_all('tr')[0]cell=row.find_all('td')[0]printcell观察结果: hello 要求的结果: hello

Beautiful python section code BeautifulSoup web-scraping html-parsing html-entities