# 导包
import time
import requests
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
# 尝试能用否
b = Chrome()
b.get('网址')
input()
1.创建浏览器对象
2.打开网页()
3.获取网页源代码
# 1
b = Chrome()
# 2
b.get('网址')
# 3
print(b.page_source)
1.输入框中输入内容
获取输入框
浏览器对象.find_element(By.获取方式, 值):按照指定方式获取第一个满足条件的标签,返回一个标签值
浏览器对象.find_elements(By.获取方式, 值):按照指定方式获取所有满足条件的标签,返回一个标签值
seleniu中常见的获取方式
| 名称 | 用法 |
|---|---|
| By.ID | 通过id属性值获取标签 |
| By.CLASS_NAME | 通过class属性值获取标签 |
| By.CSS_SELECTOR | 通过css选择器获取标签 |
| By.XPATH | 通过xpath路径获取标签 |
| By.LINK_TEXT | 通过超链接获取标签 |
2.点击内容
3.前进/后退/切换选项卡
# 1
# 创建谷歌浏览器,返回一个浏览器对象
b = Chrome()
# 通过浏览器对象打开指定网页
b.get('网址')
# 模拟人行为,等浏览器加载稳定
time.sleep(2)
# 获取输入框(获取标签),id = kw
search1 = b.find_element(By.ID, 'kw')
# search2 = b.find_element(By.CSS_SELECTOR, '#kw')
# search3 = b.find_element(By.XPATH, '//input[@id="kw"]')
# 输入内容
# \n(回车搜索)
search1.send_keys('你好\n')
time.sleep(1)
search1.send_keys(Keys.ENTER) # 回车键
time.sleep(1)
# 注意:如需要在输入框中执行特殊按键的效果,需要Key类提供
search1.send_keys('你好helloword')
time.sleep(1)
search1.send_keys(Keys.BACKSPACE) # 删除键
# 2
# 获取需要被点击的标签值
news = b.find_element(By.LINK_TEXT, '新闻') # '地图' '...'
# 点击标签
news.click()
# 3.
b = Chrome()
# 打开TOP250
b.get('网址')
time.sleep(1)
# 点击电视剧, 进入电视剧页面
b.find_element(By.LINK_TEXT, '电视剧').click()
time.sleep(1)
# 前进/后退
# 后退, 回到top250首页
b.back()
# 前进, 进入电视剧页面
b.forward()
# 切换选项卡
# 获取小组对应超链接
b.find_element(By.LINK_TEXT, '小组').click()
time.sleep(1)
# 网页源代码验证b指向哪个页面
# print(b.page_source) # b是第一个窗口内容
# 让浏览器对象指向第二个窗口
b.switch_to.window(b.window_handles[1])
time.sleep(1)
# print(b.page_source)
# 关闭第二个窗口
b.close()
# 切换第一个窗口
b.switch_to.window(b.window_handles[0])
# 创建浏览器
b = Chrome()
# 打开知网
b.get('网址')
time.sleep(1)
# 获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)
# 获取搜索结果详情页对应a标签
all_a = b.find_elements(By.CLASS_NAME, 'fz14')
# 遍历每个搜索结果a标签
for a in all_a:
# 点击进入论文详情页
a.click()
time.sleep(1)
# 切换到新窗口获取数据
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据
html = b.page_source
# 解吸数据:正则, bs, xpath
soup = BeautifulSoup(html, 'lxml')
title = soup.select_one('h1').text
digest = soup.select_one('#ChDivSummary').text
key_words_tag = soup.select_one('.keywords')
if key_words_tag:
key_words = key_words_tag.text
else:
key_words = ''
type_id = soup.select_one('div.row>ur>li:nth-child(2)>p').text
print(soup, title, digest, key_words, type_id)
# 关闭详情页
b.close()
# 切换回第一个页面
b.switch_to.window(b.window_handles[0])
b = Chrome()
# 2.打开中国知网
b.get('网址')
time.sleep(1)
# 3.获取输入框输入搜索内容
b.find_element(By.ID, 'txt_SearchText').send_keys('数据分析\n')
time.sleep(1)
def get_one_page(page):
# 如果写在开头他会一开始就下一页,不合理
# p = b.find_elements(By.CLASS_NAME, 'PageNext') # id="PageNext",这里的By.CLASS_NAME应该写By.ID
# for page in p:
# page.click()
# time.sleep(1)
all_a = b.find_elements(By.CLASS_NAME, 'fz14')
# 5. 遍历拿到每个搜索结果对应的a标签
for a in all_a:
# 点击进入到论文详情页
a.click()
time.sleep(1)
# 切换到详情页对应的新的窗口
b.switch_to.window(b.window_handles[-1])
# 获取详情页数据
html = b.page_source
# 解析数据
soup = BeautifulSoup(html, 'lxml')
title = soup.select_one('h1').text
digest = soup.select_one('#ChDivSummary').text
keyword_tag = soup.select_one('.keywords')
if keyword_tag:
keyword = keyword_tag.text
else:
keyword = ''
type_id = soup.select_one('div.row>ul>li:nth-child(2)>p').text
print(title, digest, keyword, type_id)
print('---------------------------------------华丽的分割线------------------------------------')
# 关闭详情页
b.close()
# 切换回第一个页面
b.switch_to.window(b.window_handles[0])
time.sleep(1)
next_page = b.find_element(By.ID, 'PageNext')
next_page.click()
time.sleep(2)
# next_page = b.find_element(By.ID, 'PageNext')
# next_page.click()
# time.sleep(2)
# for循环的前面应该是b.find_elements
# for page in next_page:
# page.click()
# time.sleep(1)
print(f'第{page}页完成!')
if __name__ =='__main__':
for x in range(1, 6):
get_one_page(x)
滚动页面:有些网页不滚动的话数据获取 不全
b.execute_script(‘window.scrollBy()’)
js让网页滚动的方法:window.scrollBy(x方向偏移量, y方向偏移量)
浏览器配置
1.创建配置对象
options.add_argument(‘blink-settings=imagesEnable=false’)
2.取消测试环境
options.add_experimental_option(‘excludeSwitches’,[‘enable-automation’])
3.给浏览器对象添加配置
b = Chrome(options=options)
# 京东
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('blink-settings=imagesEnabled=false')
options.add_experimental_option('excludeSwitches',['enable-automation'])
b = Chrome(options=options)
b.get('网址')
time.sleep(1)
# 不滚动可以得到多少个数据
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result)) # 30
# 滚动操作,连续循环 :
for _ in range(8):
b.execute_script('window.scrollBy(0, 800)')
time.sleep(1)
time.sleep(1)
result = b.find_elements(By.CLASS_NAME, 'gl-i-wrap')
print(len(result)) # 60
浏览器反爬:
浏览器伪装
登录反爬:
换个方式,cookie保存登录信息
人工完成登录,然后通过cookie完成自动登录
封ip反爬
找代理ip(花钱)
第一步:人工完成网页的登录
第二步:获取登录后的网页的cookie(右键 -> 检查 -> network -> all -> name中和网页地址一样的请求地址 -> 获取requestHeader中cookie值)
第三步:发送请求的时候给headers中添加cookie对应的键值对
headers = {
'cookie': '...',
'user-agent': '...'
}
response = requests.get('网址', headers=headers)
print(response)
print(response.text)
创建浏览器打开需要做自动登录的网站
留足够长的时间来完成人工登录
3.获取登录成功后的cookie
将获取到的cookie保存到本地文件中
# 1
b = Chrome()
b.get('网址')
# 2.完成人工登录的时候一定要保证浏览器对象(b)指向的页面中有登录成功信息
input('是否完成登录:')
# 3.
cookies = b.get_cookies()
# 4.
import json
with open('files/网站名称.json', 'w', encoding='utf-8') as f:
f.write(json.dumps(cookies))
1.创建浏览器,打开需要自动登陆的网站
2.添加cookie()
3.重新打开网站
b.get(‘网址’)
b = Chrome()
b.get('网址')
import json
# 获取本地保存的cookie值
with open('files/网站名称.json', encoding='utf-8') as f:
cookies = json.loads(f.read())
for x in cookies:
b.add_cookie(x)
b.get('网址')
# # 保持浏览器一直存在
input('结束:')
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有没有办法在这个简单的get方法中添加超时选项?我正在使用法拉第3.3。Faraday.get(url)四处寻找,我只能先发起连接后应用超时选项,然后应用超时选项。或者有什么简单的方法?这就是我现在正在做的:conn=Faraday.newresponse=conn.getdo|req|req.urlurlreq.options.timeout=2#2secondsend 最佳答案 试试这个:conn=Faraday.newdo|conn|conn.options.timeout=20endresponse=conn.get(url
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我有一个存储主机名的Ruby数组server_names。如果我打印出来,它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点,但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类?输出:ge
我想获取模块中定义的所有常量的值:moduleLettersA='apple'.freezeB='boy'.freezeendconstants给了我常量的名字:Letters.constants(false)#=>[:A,:B]如何获取它们的值的数组,即["apple","boy"]? 最佳答案 为了做到这一点,请使用mapLetters.constants(false).map&Letters.method(:const_get)这将返回["a","b"]第二种方式:Letters.constants(false).map{|c
我安装了ruby版本管理器,并将RVM安装的ruby实现设置为默认值,这样'哪个ruby'显示'~/.rvm/ruby-1.8.6-p383/bin/ruby'但是当我在emacs中打开inf-ruby缓冲区时,它使用安装在/usr/bin中的ruby。有没有办法让emacs像shell一样尊重ruby的路径?谢谢! 最佳答案 我创建了一个emacs扩展来将rvm集成到emacs中。如果您有兴趣,可以在这里获取:http://github.com/senny/rvm.el
假设我有这个范围:("aaaaa".."zzzzz")如何在不事先/每次生成整个项目的情况下从范围中获取第N个项目? 最佳答案 一种快速简便的方法:("aaaaa".."zzzzz").first(42).last#==>"aaabp"如果出于某种原因你不得不一遍又一遍地这样做,或者如果你需要避免为前N个元素构建中间数组,你可以这样写:moduleEnumerabledefskip(n)returnto_enum:skip,nunlessblock_given?each_with_indexdo|item,index|yieldit
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态,而无需发出第二个请求。有没有办法用另一种方法做到这一点?我一直在查看文档,但似乎找不到我要找的东西。 最佳答案 在我看来,除非您需要一些真正的低级访问或控制,否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
如何在Ruby中获取BasicObject实例的类名?例如,假设我有这个:classMyObjectSystem我怎样才能使这段代码成功?编辑:我发现Object的实例方法class被定义为returnrb_class_real(CLASS_OF(obj));。有什么方法可以从Ruby中使用它? 最佳答案 我花了一些时间研究irb并想出了这个:classBasicObjectdefclassklass=class这将为任何从BasicObject继承的对象提供一个#class您可以调用的方法。编辑评论中要求的进一步解释:假设你有对象
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在