带你玩转Python爬虫（胆小者勿进）千万别做坏事·······

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容，一般域名后加/robots.txt，就可以获取
当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取
另外，robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
robots.txt写作语法
首先，我们来看一个robots.txt范例：https://fanyi.youdao.com/robots.txt
访问以上具体地址，我们可以看到robots.txt的具体内容如下

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Allow: /fufei
Allow: /rengong
Allow: /web2/index.html
Allow: /about.html
Allow: /fanyiapi
Allow: /openapi
Disallow: /app
Disallow: /?

以上文本表达的意思是允许所有的搜索机器人访问fanyi.youdao.com站点下的所有文件
具体语法分析：User-agent:后面为搜索机器人的名称，后面如果是*，则泛指所有的搜索机器人；Disallow:后面为不允许访问的文件目录

1.2 使用robots.txt

robots.txt自身是一个文本文件。它必须位于域名的根目录中并被命名为robots.txt。位于子目录中的 robots.txt 文件无效，因为漫游器只在域名的根目录中查找此文件。例如，http://www.example.com/robots.txt 是有效位置，http://www.example.com/mysite/robots.txt 则不是有效位置

由于http/https协议特性是无状态特性，因此需要服务器在客户端写入cookie，可以让服务器知道此请求是在什么样的状态下发生

2.1 两种cookie处理方式

cookie简言之就是让服务器记录客户端的相关状态信息，有两种方式：

手动处理
通过抓包工具获取cookie值，然后将该值封装到headers中

headers={
        'cookie':"...."
    }
在发起请求时把cookie封装进去

自动处理
自动处理时，要明白cookie的值来自服务器端，在模拟登陆post后，服务器端创建并返回给客户端
主要是通过session会话对象来操作cookie，session作用：可以进行请求的发送；如果请求过程中产生了cookie会自动被存储或携带在该session对象中
创建session对象：session=requests.Session()，使用session对象进行模拟登陆post请求发送（cookie会被存储在session中）
发送session请求：session.post()在发送时session对象对要请求的页面对应get请求进行发送（携带了cookie）

3 常用爬虫方法

用python爬取数据解析原理：

标签定位
提取标签、标签属性中存储的数据值

3.1 bs4

3.1.1 基础介绍

bs4进行网页数据解析
bs4解析原理：

通过实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中
通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

环境安装：

pip install bs4
pip install lxml

3.1.2 bs4使用

3.1.2.1 获取解析对象

如何实例化BeautifulSoup对象：
导包from bs4 import BeautifulSoup
对象的实例化，有两种，本地和远程：

将本地的html文档中的数据加载到该对象中

page_text = response.text
soup=BeautifulSoup(page_text,'lxml')

3.1.2.2 使用bs4解析

使用bs4提供的用于数据解析的方法和属性：

soup.tagName：返回的是文档中第一次出现的tagName对应的标签，比如soup.a获取第一次出现的a标签信息
soup.find()：
在使用find('tagName')效果是等同于soup.tagName；
进行属性定位，soup.find(‘div’,class_(或id或attr)='song')：示例就是定位带有class='song'的div标签，class_必须有下划线是为了规避python关键字
还可以是其他比如：soup.find(‘div’,id='song')：定位id是song的div标签
soup.find(‘div’,attr='song')：定位attr是song的div标签
soup.find_all('tagName')：返回符合要求的所有标签（列表）

select用法：

select('某种选择器（id,class,标签..选择器）')返回的是一个列表

获取标签之间文本数据
可以使用text或string或get_text()，主要区别：

text或get_text()可以获取某一个标签中所有的文本内容
string：只可以获取该标签下面直系的文本内容

获取标签中属性值：

使用python获取字典方法获取，比如：soup.a['href']就是获取<a>中的href值

3.1.2 使用例子

import os
import requests
from bs4 import BeautifulSoup


headers={
        'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
url="https://www.test.com/chaxun/zuozhe/77.html"


def getPoems():
    res= requests.get(url=url,headers=headers)
    res.encoding='UTF-8'
    page_text=res.text
    #在首页解析出章节
    soup = BeautifulSoup(page_text,'lxml')
    shici_list = soup.select(".shici_list_main > h3 > a")
    shici_name=[]
    for li in shici_list:
        data_url = "https://www.test.com"+li['href']
        # print(li.string+"======="+data_url)
        shici_name.append(li.string)
        detail_res = requests.get(url=data_url,headers=headers)
        detail_res.encoding='UTF-8'
        detail_page_text=detail_res.text
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        detail_content = detail_soup.find("div",class_="item_content").text
        # print(detail_content)
        with open("./shici.txt",'a+',encoding= 'utf8') as file:
            if shici_name.count(li.string)==1:
                file.write(li.string)
            file.write(detail_content+"\n")
            print(li.string+"下载完成!!!!")     
        

if __name__=="__main__":
    getPoems()

3.2 xpath

xpath解析：最常用且最便捷高效的一种解析方式

3.2.1 xpath基础介绍

xpath解析原理：

实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中
调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获

环境安装：

pip install lxml

3.2.2 xpath使用

3.2.2.1 获取相关对象

先实例化一个etree对象，先导包：from lxml import etree

将本地的html文档中的源码数据加载到etree对象中

tree=etree.parse(filepath)

可以将从互联网上获取的源码数据加载到该对象中

page_text = response.text
tree=etree.HTML(page_text)

3.2.2.2 通过xpath解析

通过xpath表达式：tree.xpath(xpath表达式)：
xpath表达式：

/：表示的是从根节点开始定位，表示的是一个层级
//：表示的是多个层级，可以表示从任意位置开始定位
属性定位：tag[@attrName='attrValue']
比如//div[@class='song']表示的是获取到任意位置class='song'的<div>标签
索引定位：//div[@class='song']/p[3]表示的是任意位置class='song'的<div>标签下面的第三个<p>标签，注意：索引定位是从1开始的
取文本：
/text()：获取的是标签中直系文本内容
//text()：标签中非直系的文本内容（所有的文本内容）
取属性：
/@attrName：获取某个属性的值，比如：//img/@src获取任意的img标签的src值

注意：xpath中也可以使用管道符|，如果第一个没有取到就去取管道符后面的，比如：
xpath('//div/b/text() | //div/a/test()')，如果管道符左边生效就取左边，若右边生效就取右边
注意：xpath中不能出现tbody标签

3.2.3 使用例子

import requests
from lxml import etree
import re

headers={
        'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
url="https://www.test.com/chaxun/zuozhe/77.html"


def getPoemsByXpath():
    res= requests.get(url=url,headers=headers)
    res.encoding='UTF-8'
    page_text=res.text
    #在首页解析出章节
    tree = etree.HTML(page_text)
    shici_list = tree.xpath("//div[@class='shici_list_main']")
    shici_name_out=''
    for shici in shici_list:
        #此处使用相对路径
        shici_name=shici.xpath("h3/a/text()")[0]
        # print(shici_name)
        shici_text_list=shici.xpath("div//text()")
        # print(shici_text_list)
        
        with open("./shicibyxpath.txt",'a+',encoding= 'utf8') as file:
            if shici_name_out!=shici_name:
                file.write(shici_name+"\n")

            for text in shici_text_list:
                if "展开全文"==text or "收起"==text or re.match(r'^\s*$',text)!=None or re.match(r'^\n\s*$',text)!=None:
                    continue
                re_text=text.replace(' ','').replace('\n','')
                file.write(re_text+"\n")
        if shici_name_out!=shici_name:
            print(shici_name+"下载完成!!!!")        
        shici_name_out=shici_name
    
        

if __name__=="__main__":
    getPoemsByXpath()

写在最后

不要去干坏事，因为爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。也就是说你爬虫爬取信息没有问题，但不能涉及到个人的隐私问题，如果涉及了并且通过非法途径收益了，那肯定是违法行为。另外，还有下列三种情况，爬虫有可能违法，严重的甚至构成犯罪：爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施，非法获取相关信息，情节严重的，有可能构成“非法获取计算机信息系统数据罪”。爬虫程序干扰被访问的网站或系统正常运营，后果严重的，触犯刑法，构成“破坏计算机信息系统罪”爬虫采集的信息属于公民个人信息的，有可能构成非法获取公民个人信息的违法行为，情节严重的，有可能构成“侵犯公民个人信息罪”

所以，学习Python爬虫是没问题的，但是心一定要正！！

middot 小者 code xff xff0c 搜索引擎爬虫 python 大数据开发语言

有关带你玩转Python爬虫（胆小者勿进）千万别做坏事·······的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案
.net - .NET 将如何影响 Python 和 Ruby 应用程序？ - 2
我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境，以至于它们实际上将变得特定于平台？如果他们不使用任何.NET功能，那么IronPython/IronRuby相对于非.NET同类产品的优势是什么？最佳答案我不能说任何关于IronRuby的东西，但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过，IronPython正在迅速成为这方面的佼佼者之一，并且在PlanetPyth