草庐IT

Python爬虫:爬取华为应用市场全部app信息

Gil-1117 2023-04-15 原文

先不着急写程序,先对网站进行分析

目标网址为:https://appgallery.huawei.com/#/Apps 

抓取目标为:app名称 包名 和开发公司名

F12检查发现为动态加载

 

 

 

 检查完发现为动态加载get请求 设置params循环获取全部数据 代码如下:


url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers = {
'你的': 'ua',
'你的': '防盗链'

}

for c in range(1,17):
param = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': {c},
'uri': f'{d}',
'maxResults': 25,
'zone': '',
'locale': 'zh'
}

所有数据都拿到 接下来就是提取过程

此时我们发现此时的数据中并没有开发公司的名称 需要点击app跳转后在动态加载中才找到,所以我们需要继续分析跳转页面

 数据已经找到 对url进行分析后发现在挂载内容里只多了个appid 而appid在上一个页面中可以提取到,所以我们只需要进行拼接url即可

  代码如下:

url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers1 = {
'你的': 'ua',
'你的': '防盗链'
}
param1 = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': 1,
'maxResults': 25,
'uri': f'app|{appid}',
'shareTo': '',
'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',
'accessId': '',
'appid': f'{appid}',
'zone': '',
'locale': 'zh'
}
此时完整一页的数据已经可以获取到但是其他分类并没有获取到

 点击后我们发现只有挂载中的uri不同 而uri再上一页也能获取到 那这就好办了 继续构造url然后请求即可

  我用了一个笨方法 逐一点击手动建个列表 将所有的url保存 然后进行循环

uid = [
'33ef450cbac34770a477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03d470287c0c7c2ef8f2c96','84471de6a7524d4a9242903fbc9bbe8b',
'65696386add14dda8b7ee8a20be03aad','07e66002a01c442990ed5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','50151113bc4143d0aa7013843ff0ef32',
'ce87048699a64f5db8a90bca7bcf68fd','e3beb74372c44ee899709a038eabfc70','4d5e752fde6c4b33869058a69565171e','24305799357048a4a9585f4f4c05dc1e',
'2d2b18f338244b9db71d1ec30b257f1e','7e04648230ca4bbaa836fa8c027517ba','a29745005a8942b797d3d5ddf6bb1b48','d6566ca265754426b36cc6a12fa1e2cd',
'1f316fc086704f169e7a841341ed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6c541818f3f9c242f18fd85','3e28c821504e473c9f4990d78d235837',
'ee252e5e36524275b17d5bbee7ab08a5','43285bc8c9344cd2b973165ef8fc9aee'
]
保存的数据 这里只提取了三个  需要的话课追加 只需要在提取代码处增加即可

 最后为整体的代码实现:

import requests
import time
import csv

uid = [
'33ef450cbac34770a477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03d470287c0c7c2ef8f2c96','84471de6a7524d4a9242903fbc9bbe8b',
'65696386add14dda8b7ee8a20be03aad','07e66002a01c442990ed5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','50151113bc4143d0aa7013843ff0ef32',
'ce87048699a64f5db8a90bca7bcf68fd','e3beb74372c44ee899709a038eabfc70','4d5e752fde6c4b33869058a69565171e','24305799357048a4a9585f4f4c05dc1e',
'2d2b18f338244b9db71d1ec30b257f1e','7e04648230ca4bbaa836fa8c027517ba','a29745005a8942b797d3d5ddf6bb1b48','d6566ca265754426b36cc6a12fa1e2cd',
'1f316fc086704f169e7a841341ed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6c541818f3f9c242f18fd85','3e28c821504e473c9f4990d78d235837',
'ee252e5e36524275b17d5bbee7ab08a5','43285bc8c9344cd2b973165ef8fc9aee'
]
with open('华为应用市场.csv', 'a', encoding='utf-8', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow(['app名称', '应用包名', '开发名称'])
for d in uid:
url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Referer': 'https://appgallery.huawei.com/'

}

for c in range(1,16):
param = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': {c},
'uri': f'{d}',
'maxResults': 25,
'zone': '',
'locale': 'zh'
}

re = requests.get(url=url,headers=headers,params=param).json()
tiqu = re['layoutData']
for a in tiqu:
bms = a['dataList'][0:]
for bm in bms:
baoming = bm['package']
appid = bm['appid']
name = bm['name']
id = bm['logSource']
# print(baoming)
url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers1 = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36 Edg/103.0.1264.44',
'Referer': 'https://appgallery.huawei.com/'
}
param1 = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': 1,
'maxResults': 25,
'uri': f'app|{appid}',
'shareTo': '',
'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',
'accessId': '',
'appid': f'{appid}',
'zone': '',
'locale': 'zh'
}
re1 = requests.get(url=url1, headers=headers1, params=param1).json()
# print(re1)
# dataList > developer
tiqu = re1['layoutData'][3]
tiqu1 = tiqu['dataList'][0]
kaifa = tiqu1['developer']
# print(kaifa)
with open('华为应用市场.csv', 'a', encoding='utf-8', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow([name,baoming,kaifa])
print(name+'保存完成')
time.sleep(2)

有关Python爬虫:爬取华为应用市场全部app信息的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  3. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby-on-rails - Rails 应用程序之间的通信 - 2

    我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此

  6. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  7. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  8. ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby​​ 变量的内容? - 2

    我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby​​中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R

  9. ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2

    我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("

  10. ruby-on-rails - 每次我尝试部署时,我都会得到 - (gcloud.preview.app.deploy) 错误响应 : [4] DEADLINE_EXCEEDED - 2

    我是Google云的新手,我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目,而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie

随机推荐