百度指数 Cipher-Text、百度翻译 Acs-Token 逆向分析

K哥爬虫 2023-04-20 原文

K 哥之前写过一篇关于百度翻译逆向的文章，也在 bilibili 上出过相应的视频，最近在 K 哥爬虫交流群中有群友提出，百度翻译新增了一个请求头参数 Acs-Token，如果不携带该参数，直接按照以前的方法进行处理，会出现 1022 报错，并且如果直接将 Acs-Token 写成定值，前几次可能能成功，多查询几次也会报同样的错误，现对其进行逆向分析，对往期代码进行重构。与此同时，K哥发现百度指数的某些接口有个 Cipher-Text 参数，与百度翻译的 Acs-Token 加密方式差不多，所以就一起分析一波。

声明

本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！

本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请在公众号【K哥爬虫】联系作者立即删除！

逆向目标

目标：百度翻译最新请求头参数 Acs-Token，百度指数请求头 Cipher-Text
主页：https://fanyi.baidu.com/
接口：https://fanyi.baidu.com/v2transapi
sign、token 参数的逆向方法本文不再赘述，想了解的可以阅读 K 哥往期百度翻译逆向的文章

逆向过程

抓包分析

先以百度翻译为例，随便输入文字，可以看到没有刷新页面，翻译结果就出来了，由此可以推断是 Ajax 加载的，打开开发者工具，选择 XHR 过滤 Ajax 请求，找到接口位置，详细分析推荐阅读 K 哥往期百度翻译逆向的文章，如下图可以看到在请求头中新增了一个 Acs-Token 参数，前面两串数字看起来像时间戳，具体加密方式需要我们来进一步分析：

这里使用 Fiddler 插件 hook 定位 Acs-Token 参数，相关 hook 操作方式可阅读 K 哥往期文章，本文不再赘述：

(function () {
    var org = window.XMLHttpRequest.prototype.setRequestHeader;
    window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {
        console.log(key, ':', value)
        if (key == 'Acs-Token') {
            debugger;
        }
        return org.apply(this, arguments);
    };
})();

清除缓存，点击翻译，可以看到成功 hook 到 Acs-Token 参数，往下跟栈即可找到其值生成的位置：

逆向分析

向下跟栈分析，Acs-Token 参数的值在 translate.js 文件的第 187 行生成，由 sign 参数传递，sign 参数定义在第 180 行，在第 195 行打下断点调试，点击翻译后成功在断点处断下：

跟进 getAcsSign() 函数，整体选中，点击进入到 paris.js 文件中，可以看到函数体中创建了一个异步 Promise 对象进行异步操作：

Promise 的构造函数接收一个函数参数，并且这个函数需要传入两个参数：

resolve：异步操作执行成功后的回调函数；
reject：异步操作执行失败后的回调函数。

所以异步操作执行成功即返回 sign 参数的值：

到这里已经拿到 sign 了，我们再向上跟栈，可以发现 Acs-Token 参数的值在 acs-2060.js 文件的第 805 行生成，很明显是拼接而成的：

上图是几天前分析的时候断下的情况，今天再次分析的时候发现结构变了，如下图所示：

这个 acs-2060.js 是咋来的呢？在 paris.js 里其实可以看到 init 初始化了了一些配置文件，其中的 acsUrl 就是 acs-2060.js 的地址，2060 是渠道号，由管理员分配，根据注释可以看到这个东西叫做“玉门关”。

继续前面的步骤，分析一下 acs-2060.js，在第 805 行打断点调试，分析 a8() 中各拼接部分含义，可得到如下结果：

b('0x78') 或者 '\x31\x36\x36\x30\x35\x34\x36\x38\x30\x39\x35\x30\x35\x5f'：固定字符串 1660287615129_ 或者 1660546809505_，这里每隔一段时间都会变化。具体的变化周期得需要持续观察一下才知道。
ae：当前时间戳
'\x5f'：下划线 _
eg(a2, a0, a1)：一大串加密字符串，在控制台输出可以知道 a2, a0, a1 各自的含义

a0，a1 为定值，分析 a2 字典中各参数值含义：

ua：浏览器类型
url：翻译链接，例如输如 spider，url 即为 https://fanyi.baidu.com/#zh/en/spider
platform：平台操作系统版本
clientTs：当前时间戳
version：版本号

选中 eg，跟进到 eg 函数定义的位置，在 acs-2060.js 文件的第 537 行：

具体内容如下：

function eg(a2, a8, a9) {
    return a2 = b('0x4d') == typeof a2 ? JSON[b('0xc')](a2) : void 0x0 === a2 ? '' : '' + a2,
        dD[b('0x37')](a2, ad[b('0x29')](a8), {
        '\x69\x76': ad[b('0x29')](a9),
        '\x6d\x6f\x64\x65': cc,
        '\x70\x61\x64\x64\x69\x6e\x67': cz
    })[b('0x27')][b('0xa')](ag);
}

可以在第 538 行打断点进行调试，亦可从控制台直接打印混淆部分内容，会发现三个经典加密参数：

'\x69\x76'：iv，偏移量
'\x6d\x6f\x64\x65'：mode，加密方式
'\x70\x61\x64\x64\x69\x6e\x67'：padding，填充方式

并且在第 548 行将 eg 赋值给了 window.aes_encrypt，很明显 AES 加密了，可以选择直接引库，也可以直接扣代码，这里不做继续研究: