【记录】Python爬虫｜爬取空间PC版日志模板

☆★★☆ 2023-03-28 原文

注：2021/7/30做

效果

运行结果

模板中免费的部分

excel已简单处理，可以根据顺序大致找到页码。
一共有43个免费模板，其中39个可用，4个损坏。

损坏的模板

▽ 我以为我捡了个漏

▽ 实际上

小彩蛋

▽ “限时免费”的林丹模板

代码

# author: shandianchengzi
# description: get templates of qq diary, saving as "qq日志模板.xlsx". Result: 43 free, 4 damaged.
# status: complete
import json
import requests
import pandas as pd
import re
from time import sleep
url="https://h5.qzone.qq.com/proxy/domain/mall.qzone.qq.com/cgi-bin/v3/cgi_get_letter_paper"
headers={
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Content-Type': 'application/json; charset=utf-8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.56',
}
headers['Cookie']="" #不需要填
params={
    'mallIds':'',
    'keyWord':'',
    'vip':0,
    'g_tk':'1002114705',
    'pageNum':3,
    'pageCount':5,
}
datalist = []  #用来存储爬取的网页信息
byYourself={
    'number':5, #一次爬取的个数，建议5个，否则得到的数据会对不上
}

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作为开始标志 和"})"作为结束标志之间的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))
def AddData(content):
    for i in content['data']['items']:
        i['name']=i['mall']['name']
        i['attr']=i['mall']['attr']
        datalist.append(i)
        #print(i)
def export_excel(export):
    try:
        #将字典列表转换为DataFrame
        pf = pd.DataFrame(list(export))
        #指定生成的Excel表格名称
        file_path = pd.ExcelWriter('qq日志模板.xlsx')
        #替换空单元格
        pf.fillna(' ', inplace=True)
        #输出
        pf.to_excel(file_path, encoding='utf-8', index=False)
        #保存表格
        file_path.save()
        print('保存成功！')
    except Exception as e:
        print("[-] Error = "+str(e))
        print('无法导出为excel，请检查是否未关闭同名excel文件。正在重试……')
        sleep(2)
        export_excel(export)
        
def getData(total):
    try:
        params['pageCount']=byYourself['number']
        pageTotal=int(total/byYourself['number'])+2
        print('一共要加载',pageTotal,'页，请耐心等待:')
        for i in range(1,pageTotal):
            params['pageNum']=i
            print('第',i,'页,',end='')
            res = requests.get(url, params=params, headers=headers)
            content=LoadJson(res.text)
            AddData(content)
    except Exception as e:
        print("[-] Error = "+str(e))
        print(res.text)
    print(len(datalist))
    export_excel(datalist)

def myFunc():
    datalist.clear()
    res = requests.get(url, params=params, headers=headers)
    #找到"({"作为开始标志 和"})"作为结束标志之间的所有信息[jsonp格式]
    content=LoadJson(res.text)
    total=content['data']['total']
    print(total)
    getData(total)
myFunc()

问题及解决方式

1. 返回数据_callback({})而非json

这种数据返回格式，使我们无法直接使用json.load(res.text)解析。

问题根源在于JSONP这种数据传输格式。
ajax请求受同源策略影响，不允许进行跨域请求，而script标签src属性中的链接却可以访问跨域的js脚本，利用这个特性，服务端不再返回JSON格式的数据，而是返回一段调用某个函数的js代码，在src中进行了调用，这样实现了跨域。
比如，可用script标签直接指向不同域下的js脚本，在js脚本中加入这个函数。
本例中的_callback({})便是JSONP的典型应用。

解决方式：正则去掉_callback({})
参考https://blog.csdn.net/weixin_38208912/article/details/104208785。

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作为开始标志 和"})"作为结束标志之间的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))

2. 获取封面图链接

封面图的链接格式：
https://qzonestyle.gtimg.cn/qzone/space_item/pre/14/108942_1.gif
找了一下规律，明显是位置+ id + _1.gif。
可惜https://qzonestyle.gtimg.cn/qzone/space_item/pre/后面的14不是固定的值，我暂时没有去管它的生成规律，免费的只有39个，全部点一遍都比找出生成规律划算。因此该问题没有解决方案。

爬虫 Python noopener code https 大数据

有关【记录】Python爬虫｜爬取空间PC版日志模板的更多相关文章

ruby - 在 Ruby 程序执行时阻止 Windows 7 PC 进入休眠状态 - 2
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep，它会中断应用程序。否则，计算机将持续运行数周，直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗？欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数，使应用程序能够通知系统它正在使用中，从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 通过 erb 模板输出 ruby 数组 - 2
我正在使用puppet为ruby程序提供一组常量。我需要提供一组主机名，我的程序将对其进行迭代。在我之前使用的bash脚本中，我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是，我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这
ruby - Sinatra:运行 rspec 测试时记录噪音 - 2
Sinatra新手；我正在运行一些rspec测试，但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音？我仔细检查了环境是否设置为:test，这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/
ruby-on-rails - Rails 5 Active Record 记录无效错误 - 2
我有两个Rails模型，即Invoice和Invoice_details。一个Invoice_details属于Invoice，一个Invoice有多个Invoice_details。我无法使用accepts_nested_attributes_forinInvoice通过Invoice模型保存Invoice_details。我收到以下错误:(0.2ms)BEGIN(0.2ms)ROLLBACKCompleted422UnprocessableEntityin25ms(ActiveRecord:4.0ms)ActiveRecord::RecordInvalid(Validationfa
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
ruby-on-rails - 从应用程序中自定义文件夹内的命名空间自动加载 - 2
我们目前正在为ROR3.2开发自定义cms引擎。在这个过程中，我们希望成为我们的rails应用程序中的一等公民的几个类类型起源，这意味着它们应该驻留在应用程序的app文件夹下，它是插件。目前我们有以下类型:数据源数据类型查看我在app文件夹下创建了多个目录来保存这些:应用/数据源应用/数据类型应用/View更多类型将随之而来，我有点担心应用程序文件夹被这么多目录污染。因此，我想将它们移动到一个子目录/模块中，该子目录/模块包含cms定义的所有类型。所有类都应位于MyCms命名空间内，目录布局应如下所示:应用程序/my_cms/data_source应用程序/my_cms/data_ty