草庐IT

python - 如何使用 Python 抓取需要先登录的网站

首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有用...我是Python、html和网络爬虫的新手。我正在尝试从需要先登录的网站上抓取用户信息。在我的测试中,我使用来自github的刮板我的电子邮件设置作为示例。主页是'https://github.com/login'并且目标页面是'https://github.com/settings/emails'这是我尝试过的方法列表#####################################Method1importmechanizeimportcookielibfromBeautifulSoupimportB

python - 如何使用 Python 抓取需要先登录的网站

首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有用...我是Python、html和网络爬虫的新手。我正在尝试从需要先登录的网站上抓取用户信息。在我的测试中,我使用来自github的刮板我的电子邮件设置作为示例。主页是'https://github.com/login'并且目标页面是'https://github.com/settings/emails'这是我尝试过的方法列表#####################################Method1importmechanizeimportcookielibfromBeautifulSoupimportB

python - 使用 python-Scrapy 抓取动态内容

免责声明:我在StackOverflow上看到了许多其他类似的帖子,并尝试以相同的方式进行操作,但它们似乎不适用于该网站。我正在使用Python-Scrapy从koovs.com获取数据。但是,我无法获得动态生成的产品尺寸。具体来说,如果有人可以指导我从this的下拉菜单中获取“不可用”尺寸标签。链接,不胜感激。我可以静态获取尺码列表,但这样做我只能获得尺码列表,而不是其中哪些是可用的。 最佳答案 您也可以使用ScrapyJS来解决它(不需要selenium和真正的浏览器):ThislibraryprovidesScrapy+Jav

python - 使用 python-Scrapy 抓取动态内容

免责声明:我在StackOverflow上看到了许多其他类似的帖子,并尝试以相同的方式进行操作,但它们似乎不适用于该网站。我正在使用Python-Scrapy从koovs.com获取数据。但是,我无法获得动态生成的产品尺寸。具体来说,如果有人可以指导我从this的下拉菜单中获取“不可用”尺寸标签。链接,不胜感激。我可以静态获取尺码列表,但这样做我只能获得尺码列表,而不是其中哪些是可用的。 最佳答案 您也可以使用ScrapyJS来解决它(不需要selenium和真正的浏览器):ThislibraryprovidesScrapy+Jav

python - 初学者学习 Python 屏幕抓取的最佳方式

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题吗?更新问题,以便editingthispost提供事实和引用来回答它.关闭去年。Improvethisquestion这可能是难以回答的问题之一,但这里是:我不认为自己是程序员——但我想:-)我学过R,因为我厌倦了spss,而且因为friend向我介绍了这门语言——所以我不是对编程逻辑完全陌生。现在我想学习python-主要是做屏幕抓取和文本分析,但也用于使用Pylons或Django编写web应用程序。那么:我应该如何开始学习使用python进行屏幕抓取?我开始浏览scrappydocs但我觉得有很多“魔

python - 初学者学习 Python 屏幕抓取的最佳方式

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题吗?更新问题,以便editingthispost提供事实和引用来回答它.关闭去年。Improvethisquestion这可能是难以回答的问题之一,但这里是:我不认为自己是程序员——但我想:-)我学过R,因为我厌倦了spss,而且因为friend向我介绍了这门语言——所以我不是对编程逻辑完全陌生。现在我想学习python-主要是做屏幕抓取和文本分析,但也用于使用Pylons或Django编写web应用程序。那么:我应该如何开始学习使用python进行屏幕抓取?我开始浏览scrappydocs但我觉得有很多“魔

javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

我正在使用Python从网站上抓取内容。首先,我在Python上使用了BeautifulSoup和Mechanize,但我看到该网站有一个通过JavaScript创建内容的按钮,所以我决定使用Selenium。鉴于我可以使用Selenium和driver.find_element_by_xpath等方法找到元素并获取它们的内容,当我可以使用Selenium时,有什么理由使用BeautifulSoup一切?在这种特殊情况下,我需要使用Selenium来单击JavaScript按钮,那么使用Selenium进行解析更好还是应该同时使用Selenium和BeautifulSoup?

javascript - 用于网页抓取的 Selenium 与 BeautifulSoup

我正在使用Python从网站上抓取内容。首先,我在Python上使用了BeautifulSoup和Mechanize,但我看到该网站有一个通过JavaScript创建内容的按钮,所以我决定使用Selenium。鉴于我可以使用Selenium和driver.find_element_by_xpath等方法找到元素并获取它们的内容,当我可以使用Selenium时,有什么理由使用BeautifulSoup一切?在这种特殊情况下,我需要使用Selenium来单击JavaScript按钮,那么使用Selenium进行解析更好还是应该同时使用Selenium和BeautifulSoup?

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想确定该页面上的主要文章内容,并排除其他杂项元素,如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么?有哪些好的数据挖掘工具或库?(最好基于python) 最佳答案 有很多方法可以做到这一点,但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中,将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go

python - 网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想确定该页面上的主要文章内容,并排除其他杂项元素,如广告、菜单、侧边栏、用户评论。在大多数主要新闻网站上都可以使用的通用方法是什么?有哪些好的数据挖掘工具或库?(最好基于python) 最佳答案 有很多方法可以做到这一点,但没有一种方法总是有效的。这里有两个最简单的:如果它是一组已知的有限网站:在您的抓取工具中,将每个url从普通url转换为给定网站的打印url(不能真正跨网站推广)使用arc90可读性算法(引用实现在javascript中)http://code.go