这几天想搞到一个三阶魔方排行榜的数据,官网居然不能导出Excel文件,刚好这几天学了个爬虫,于是爬着玩玩(应该不会进去)。
https://www.worldcubeassociation.org/results/rankings/333/average
## 准备的库
import pandas as pd # 数据分析库
import requests # 用于发送 HTTP 请求
from lxml import etree # 可以将xml格式的文件转为树状结构
如下图:点击 “网络” => “文档” => “average”

点击预览,就能看到排行榜的数据信息. 我们要爬的数据就在这里
点击“标头”,获取 url 和 标头
## 标头
headers = 'user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'
## 访问地址
url = 'https://www.worldcubeassociation.org/results/rankings/333/average'
r = requests.get(url,headers)
# r.text xml格式 又臭又长就不展示了
data_ml = etree.HTML(r.text) #转成树状结构
接下来就是无聊的寻找环节,点击“元素”
经过不懈的努力,终于看到了 Tymon 的大名,意味着我找到了排行榜的数据。。接下来的工作就轻松了
(话说排行榜的rank不就是1-100的自然数序列么,其实只要 range(1,101) 就行。。)
先看下世界第一 Tymon 的世界排名。。
在目标位置右击,赋值完整的XPath

data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr[1]/td[1]/text()')[0] #第一位选手的排名
[out]: '1'
这说明世界第一的Tymon的世界排名是1,太棒了完全吻合
再看看世界第二的 MaxPark,同样的赋值 XPath 信息
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr[2]/td[1]/text()')[0] #第二位选手的排名
[out]: '2'
又完美匹配,同时找到规律,tr[k]就是第k名选手的信息。按照这个规律我们可以得到前100名选手的排名序列:
## 爬取前一百名选手的排名序列
rank_cuber = []
for i in range(100):
rank_cuber.append(
int(data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr'+'['+str(i+1) + ']'+'/td[1]/text()')[0])
)
# rank_cuber
有了上一个试验,下面就得心应手了。同样地,我们先看下世界排名第一Tymon的姓名
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr[1]/td[2]/a/text()') #第一位选手的姓名
[out]: ['Tymon Kolasiński']
完美吻合,下面只需改tr[k]就能知道第k名选手的姓名了。不妨试验一下,中国第一的许瑞航的世界排名是4,我们尝试爬取第4名选手的姓名信息
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr[4]/td[2]/a/text()') #第一位选手的姓名
[out]: ['Ruihang Xu (许瑞航)']
完全正确,下面写个循环爬取前100名选手的姓名
name_cuber = []
for i in range(100):
name_cuber.append(
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr'+'['+str(i+1)+']'+'/td[2]/a/text()')[0]
)
# name_cuber
过程和上面完全一样,直接上代码
country_cuber = []
for i in range(100):
country_cuber.append(
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr'+'['+str(i+1)+']'+'/td[4]/text()')[1]
)
# country_cuber
WCA赛事中,选手每一轮都会有五次复原,从而会有五个成绩,这五次成绩的去尾平均就是该选手本轮比赛的平均成绩。下面我将爬取排名前100名选手的最佳的五次成绩和平均成绩。
过程也差不多,不多赘述,直接上代码
solve_cuber = [] # 五次成绩
for i in range(100):
l = []
# 取出五次成绩
for j in range(5):
l.append(
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr'+'['+str(i+1)+']'+'/td'+'['+str(6+j)+']'+'/text()')[0]
)
solve_cuber.append(l)
# solve_cuber
solve_average_cuber = [] #平均成绩
for i in range(100):
solve_average_cuber.append(
data_ml.xpath('/html/body/main/div[3]/div[2]/div/div/table/tbody/tr'+'['+str(i+1)+']'+'/td[3]/text()')[0]
)
# solve_average_cuber
注:DNF说明该选手这把成绩因某种原因无效
# 合成数据框
cuber_data = pd.DataFrame({
'排名' : rank_cuber,
'姓名' : name_cuber,
'国籍' : country_cuber,
'五次成绩' : solve_cuber,
'去尾平均' : solve_average_cuber,
})
cuber_data.head()
| 排名 | 姓名 | 国籍 | 五次成绩 | 去尾平均 | |
|---|---|---|---|---|---|
| 0 | 1 | Tymon Kolasiński | Poland | [4.02, 4.68, 5.33, 4.56, 5.59] | 4.86 |
| 1 | 2 | Max Park | United States | [4.88, 5.70, 5.56, 4.53, 4.80] | 5.08 |
| 2 | 3 | Matty Hiroto Inaba | United States | [5.23, 4.84, 6.48, 5.68, 4.74] | 5.25 |
| 3 | 4 | Ruihang Xu (许瑞航) | China | [5.48, 5.52, 5.45, 4.06, 7.51] | 5.48 |
| 4 | 5 | Feliks Zemdegs | Australia | [7.16, 5.04, 4.67, 6.55, 4.99] | 5.53 |
# 导出为excel文件
cuber_data.to_excel("前100名选手成绩.xlsx")
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的
本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决
2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)?也许我在网上搜索时遗漏了一些东西,但在Psych中似乎没有太多可用的选项,而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的,但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念,但不是人类可读性)。Ruby和Python是我选择的工具,但如果有其他一些相当简单的方法来“展开”YAML文档,它可能就可以了。 最佳答案