草庐IT

python数据可视化-matplotlib入门(7)-从网络加载数据及数据可视化的小总结

codingchen 2023-03-28 原文

除了从文件加载数据,另一个数据源是互联网,互联网每天产生各种不同的数据,可以用各种各样的方式从互联网加载数据。

一、了解 Web API

Web 应用编程接口(API)自动请求网站的特定信息,再对这些信息进行可视化。每次运行,都会获取最新的数据来生成可视化,因此即便网络上的数据瞬息万变,它呈现的信息也都是最新的。

Web API是网站的一部分,用于与使用非常具体的URL请求特定信息的程序交互。这种请求称为API调用。请求的数据将以易于处理的格式(如JSON或CSV)返回。 

 GitHub(https://github.com/)上的项目都存储在仓库中,后者包含与项目相关联的一切:代码、项目参与者的信息、问题或bug报告等,编写一个自动下载GitHub上的Python项目的相关信息。

 在浏览器中打开: https://api.github.com/search/repositories?q=language:python&sort=stars,可以看到如下内容,

此调用返回GitHub当前托管了total_count   8884066个Python项目,还有最受欢迎的Python仓库的信息。

其中第一部分( https://api.github.com/ )将请求发送到GitHub网站中响应API调用的部分;

第二部分( search/repositories )让API搜索GitHub上的所有仓库。

repositories 后面的问号指出我们要传递一个实参。 q 表示查询,而等号让我们能够开始指定
查询( q= )。通过使用 language:python ,我们指出只想获取主要语言为Python的仓库的信息。

最后一部分( &sort=stars )指定将项目按其获得的星级进行排序。

但我们不能每次通过打开网页的形式来获取数据。但可以通过python中相关库

二、安装 requests

requests是一个很实用的Python HTTP客户端库,专门用于发送HTTP请求,方便编程,编写爬虫和测试服务器响应数据时经常会用到,

Requests主要相关参数有:

r.status_code 响应状态码
r.heards 响应头
r.cookies 响应cookies

r.text 响应文本
r. encoding 当前编码
r. content 以字节形式(二进制)返回

鉴于一直都使用的是anaconda3,可直接打开 anaconda prompt,然后输入命令:pip install --user requests 安装即可。

下面来编写一个程序,执行API调用并处理结果,找出GitHub上星级最高的Python项目,代码如下:

import requests   # 导入模块requests

url='https://api.github.com/search/repositories?q=language:python&sort=stars'#存储API调用的URL
r = requests.get(url)  # 调用get()并将URL传递给它,响应对象存储在变量 r中
print("Status code:",r.status_code) #包含一个名为status_code的属性
response_dict = r.json()   # 使用方法json()将这些信息转换为一个Python字典
print(response_dict.keys())  #打印出字典的key

上述代码有两行打印,运行结果如下:

Status code: 200
dict_keys(['total_count', 'incomplete_results', 'items'])

状态码为200,请求成功。响应字典包含三个键: 'total_count'和 'incomplete_results'和 'items' 

将API调用返回的信息存储到字典中,就可以利用前面了解的字典的键-值对来研究自己喜欢的信息了。

三、整理字典中的信息

上述代码response_dict = r.json()实际上已将请求信息转为字典,那查看一下字典里有些什么内容。

从浏览器中打开的内容可以看到,返回的内容中是字典中包含字典

(items是作为最上那个大括号中的key,对应的值,是由多个字典组成的字典列表,‘id’,‘node_id’,‘name’等也是items列表中第一子字典的key,见红色方框部分,列表字典等相互嵌套,好好分析一下)。

1)先看一下与 'total_count'关联的值

print("Total repositories:", response_dict['total_count'])

2)items本身是一个字典,‘id’,‘node_id’,‘name’等均是key,后面对应的都是值,可以查一下有多少个key

repo_dicts = response_dict['items'] #建一个变量字典repo_dicts,将items字典列表存储在 repo_dicts 
print("Repositories returned:", len(repo_dicts))# 打 repo_dicts的长度,获得item字典的长度信息

3)查看第一个item的详细信息,并打印出所有key

repo_dict = repo_dicts[0]   #提取了repo_dicts中的第一个字典
print("\nKeys:", len(repo_dict))  #打印这个字典包含的键数
print("\n")
for key in repo_dict.keys():#打印这个字典的所有键
    print(key)

整体运行结果(下图白色部分为浏览器打开):

思考一下,为什么图中的Total repositories一个是9037884,另一个为9145790,两者不一致?

有了key,就很容易查询到相关的值了(当然这里都是字符串,如果是数字型的就能可视化)

 四,数字可视化

通过浏览器打开页面,会发现"forks": 32471,       "open_issues": 305,       "watchers": 177777等有相关数据,于是,可以通过对应的key,将相关数据整合成一个数据列表,然后显示出来,比如可视化wathers 

count=0  
watchers, counts= [], []
for repo_dict in repo_dicts:
    watchers.append(repo_dict['watchers'])
    count += 1
    counts.append(count)

plt.bar(counts,watchers, label="watchers", color='#ff2204')
plt.legend()
plt.show()

运行结果:

五、数据可视化的小总结:

 matplotlib中数据可视化的方法主要就是调用pyplot接口,再直接调用对象的建立方法,在方法中对该对象进行相应的属性设置,所以掌握这种方法的核心就在于掌握每种对象的建立方法和具体参数设置。Python数据可视化的难处在于掌握参数的设置,内置的参数虽然很多,但一般都用不上(可以留着慢慢钻研),将用得上的参数和参数值几何整理下来,做到这样,对于Python的可视化学习暂时足矣。剩下的时间该去学习其他更为有用的!

简而化之,

曲线图   plt.plot(squares, linewidth=5)    只需要提供一组数据即可
散点图   plt.scatter(x, y,c='r',edgecolor='none',s=100) ,x,y分别为x轴,y轴坐标位置,x,y对应
柱图      plt.bar(x,y, label="Test one", color='r')                x为x轴位置,y为值,x如为数列,则y对应相同长度
柱图      plt.hist(list, bins, histtype='bar', rwidth=0.8,color='r')   bins为柱图划分范围,表现在x轴上,list为数列,显示在y 轴
饼图      plt.pie(slices) slices 为一数列
堆叠图  plt.stackplot(days, times,labels=labellist,colors=colorlist)   days为一维数列,times为一维或多维数列,每一维数列元素个数与days一样。

有关python数据可视化-matplotlib入门(7)-从网络加载数据及数据可视化的小总结的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

  4. ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2

    我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("

  5. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  6. ruby - Ruby 中的波形可视化 - 2

    我即将开始一个将录制和编辑音频文件的项目,我正在寻找一个好的库(最好是Ruby,但会考虑Java或.NET以外的任何库)以进行实时可视化波形。有人知道我应该从哪里开始搜索吗? 最佳答案 要流入浏览器的数据量很大。Flash或Flex图表可能是唯一能提高内存效率的解决方案。Javascript图表往往会因大型数据集而崩溃。 关于ruby-Ruby中的波形可视化,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

  7. ruby - 用 Ruby 编写一个简单的网络服务器 - 2

    我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b

  8. ruby-on-rails - 使用 config.threadsafe 时从 lib/加载模块/类的正确方法是什么!选项? - 2

    我一直致力于让我们的Rails2.3.8应用程序在JRuby下正确运行。一切正常,直到我启用config.threadsafe!以实现JRuby提供的并发性。这导致lib/中的模块和类不再自动加载。使用config.threadsafe!启用:$rubyscript/runner-eproduction'pSim::Sim200Provisioner'/Users/amchale/.rvm/gems/jruby-1.5.1@web-services/gems/activesupport-2.3.8/lib/active_support/dependencies.rb:105:in`co

  9. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  10. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

随机推荐