这里写目录标题
爬虫简介:网络爬虫就是按照一定规则,自动抓取互联网信息的程序或脚本,由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析就是爬虫要做的工作
为什么我们把它称为爬虫(Spider)嘞?互联网就像是一张大网,而每一个网页就是这张大网上的每一个结点,这些结点间的通信和跳转通过链接来实现,而这个链接就是互联网这张大网上结点之间的连线,爬虫到达一个结点就意味着可以爬取这个页面的信息,当爬虫顺着这些连线(链接)爬向不同的结点(网页)时,就可以爬取到整个网站的信息
只要你能通过浏览器访问的数据都能通过爬虫获取
爬虫的主要工作就是获取网页信息,它其实就是一个获取网页并提取和保存信息的自动化程序,它的工作流程可分为:获取网页 --> 提取信息 --> 保存数据
在拿到我们想要爬取的网页的链接之后,我们要做的第一件事情就是获取这个网页的源代码,网页就是用HTML和CSS以及一些内嵌的JS代码编写成的,这些代码信息中就蕴含着我们想要爬取的信息
我们怎么获取网页的源代码,这就是问题的关键,我们作为一个用户(浏览器)向这个网站的服务器发送请求Request时,服务器就会给我们返回网页的源代码在解析后用于在浏览器呈现完整的页面,Python为我们提供了很多库来帮助我们实现这个操作在获取源代码后我们对其中的数据做一系列的数据解析即可
在获取到页面的源代码后,就要开始获取其中的信息了,分析网页源代码并从中提取信息,我们提取信息可以用正则表达式,也可以用根据网页结点属性、CSS选择器或者Xpath来提取信息的库:Beautiful Soup(漂亮汤)、pyquery和lxml等,通过这些库我们可以高校地从网页源代码中提取网页信息
正则表达式不太受欢迎,或者说它并不好用,因为它在构造时很复杂而且容错率较低
在提取到我们指定的信息后,我们通常会把这些信息保存起来方便后续使用,而数据的保存我们第一个想到的就是数据库MySQL和MongDB,当然我们还能简单地保存为txt文本或json文本
这一部分我们来看看怎么以GET和POST的方式向服务器发送请求并取得回应
urllib库中的request对象有一个urlopen()方法,它可以帮助我们打开一个网页并向服务器发送请求然后获取源代码
我们定义一个response来接收urlopen方法返回的信息并用read()方法把源代码读取出来
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode('utf-8'))

使用urllib访问一个页面时,建议对返回的内容用decode()方法做一个解码,相对应的,encode()就是指定编码方式
对于获取一个POST请求我们要用到一个网站:http://httpbin.org,这是一个专门用来测试的网站,当我们以post方式向这个网站的服务器发送请求时,它会给我们返回响应的特定信息

它的意思是说当我们访问http://httpbin.org时加个/post后缀再访问,就意味着我们是通过post获取响应,而post我们也不能直接使用,因为这种方式通常用于给服务器传递账号密码等表单信息,所有我们要加一个表单信息在里面,而表单信息我们通过键值对的方式传递
然后我们再看一个urllib库的对象parse,它是一个解析器,用于对我们的表单信息进行解析,它提供了一个urlencode()方法放置我们的表单信息,还需要一个指定encoding属性,对我们的表单信息做一个编码然后传递给服务器
data = bytes(urllib.parse.urlencode({"hello": "world"}), encoding="utf-8")
# 需要使用urllib的parse对象,它是一个解析器,对我们的表单信息进行解析
response02 = urllib.request.urlopen("http://httpbin.org/post", data=data)
print(response02.read().decode('utf-8'))

有时候我们长时间访问不到一个页面,可能是因为网速有限或者被发现我们是一个爬虫
# 模拟超时(网速有限或对方发现你是爬虫)
try:
response03 = urllib.request.urlopen("http://httpbin.org/get", timeout=0.01)
print(response03.read().decode('utf-8'))
except urllib.error.URLError as e:
print("访问已超时 !!!!")
这个timeout就是一个超时信息,如果访问页面的时间超过了这个时间就会被认定为访问超时,此时网页服务器有可能会作出相应的操作

但是一般的网站都会有各种反爬机制,这个时候我们就要假装自己不是爬虫,我们是一个真正的浏览器是一个用户,当我们以正常用户的形式访问某个页面的时候,就可以获取页面中的信息
如果这个网站发现了我们是一个爬虫,就会给我们一个418的状态码
# 响应头(被别人发现你是爬虫会爆418)
response04 = urllib.request.urlopen("http://httpbin.org/get")
print(response04.status)
# 状态码,被别人发现你是爬虫会爆418
print(response04.getheader("Server"))
# 这个就是浏览器在NetWork中response Header中的信息
# 在getHeader()中传入参数,例如Server,就会返回指定的信息
上述代码我们是用get请求访问了http://httpbin.org/get,这个网页的反爬机制不是那么的严格敏感,所以我们可以正常爬取其中的源代码信息

但是我们把网站换成豆瓣试试

瞧瞧,这样咱就很没面子,出现了HTTPError,被对方发现了我们是一个爬虫
那如何让对方发现不了我们是一个爬虫呢?就是上面所说的,我们要伪装成一个浏览器(用户),在发出响应时传递该传递给服务器的信息,这个时候服务器就会认为我们是一个正经用户,我们就能正常爬取网页信息了,对于需要传递账号密码表单信息的网页,我们把这些信息正常传递进去就能访问了
url = "http://httpbin.org/post"
headers = { # 注意键和值
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36"
}
data = bytes(urllib.parse.urlencode({'name': 'MJJ'}), encoding="utf-8")
req = urllib.request.Request(url=url, data=data, headers=headers, method="POST")
# 上述就是我们的请求,内部包含了我们模拟的浏览器的信息
response05 = urllib.request.urlopen(req)
# User-Agent(用户代理)是最能体现的,这个在任意一个网页的Request-Header的User-Agent
print(response05.read().decode("utf-8"))
上面的代码就是一个比较完整的过程,先指定了基本的url,即我们要访问的网址,然后设置headers信息,注意headers信息是键值对的形式,而data就对应了data信息,req是我们定义的一个请求,其中包含了url、headers、data和method这些信息,此时我们想获取网页的响应,就把我们的req请求放在urlopen()方法中即可

上述内容借鉴自B站IT私塾的Python入门+数据分析视频系列,以及参考自CSDN文章:爬虫的基本原理
如果文章对您有所帮助,记得一键三连支持一下哦
我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
很好奇,就使用rubyonrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外,还有什么方法可以访问C和m中的其他内容?我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)?如何在使用完匿名模块后将其删除,使其定义的常量不再存在? 最佳答案 三个答案:是的,使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封,在我看来soap请求没有正确的命名空间。任何人都可以建议我
我正在尝试设置一个puppet节点,但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h