量化择时——SVM机器学习量化择时（第1部分—因子测算）

呆萌的代Ma 2023-10-30 原文

文章目录

最近ChatGPT比较火，NLP的同学们感触肯定会更深。NLP的应用为人所知并积极部署是一件好事，但是应用层面上的每个应用场景都是过去的领域内SOTA模型不断攻克的任务。但是可惜的是，近年来，解决单一任务在算法层面的突破明显减速，应用层面却在加速推广。

ps：目前资讯里还没有见到提到“天网”这个词，hhhhhhh，当年VR，AR啥啥都没有的时候，漫山遍野的提“天网”要来啦，不知道这次的爆点又是什么

这里我们使用一个较为简单且常用的机器学习模型SVM，对择时提供帮助，以获得超额回报

机器学习在量化模型上的应用

机器学习量化应用场景

博主总结的机器学习应用与量化策略有以下三种场景：

构造胜率大于50的量化策略，无论模型是否可解释，通过增加交易次数，使综合收益向均线附近偏移，获取预期超额回报
在一个可能获取超额回报的逻辑框架上，使用机器学习模型优化细节，使预期收益均值在模型的加持下，向更高的回报偏移
以定价模型为基础，赚取修正市场的超额收益

而每一种场景都对应了不同的量化思路，同时也对应了不同的研究人员的知识体系：

第一种适合专业度足够高的工科背景，难点在于“历史不会重演”的前提下，论证模型可以获取超额回报，且获取超额回报也是大概率事件，以高频交易为主
第二种适合有编程能力的金融人员，难点在于论证可以取得超额回报的逻辑链条
第三种适合有编程能力，且富有经验的金融人员，难点在于识别并排除市场的噪声信息，或是对定价模型的修正与优化

量化模型有效性的思考

目前的共识是：投资任务的复杂性远远超出了机器学习能够处理的范围，因此通常需要在人为的框定一个逻辑框架内，用机器学习的模型来优化。

学习到现在，看了很多量化方面的书籍与策略，博主有些思考想和大家分享一下：

其实有很多同学和博主一样是计算机大类转到金融的，所以“量化”是我们一个不错的切入点，越偏向数据分析，也越是我们的舒适圈。但是人与算法相比：
- 人的优点是：剥离噪声，总结归纳，能把书越读越少
- 机器的优点是：统计、推理，能把书越读越厚

发展了半个多世纪的计量经济学模型已经说明金融、定价这些“结果数据”，它们的信息构成是混沌且带有随机性的，因此，在出策略的时候，最好不要让机器“替代自己思考”，算法的结果最多只能给与一些启发，远达不到辅助思考的程度。同时也不要“特征多多益善”，垃圾特征就是噪声源，而机器是无法自己筛选的，所以首先要“人”是懂金融有逻辑的，然后“人”去构造算法。

除了调参外，提升机器学习模型的效果一般有两种：
- 人为构造经得起逻辑推敲的特征序列
- 不要预先按照数据分析的固有规则剔除特征

经验哈，比如博主常用的随机森林模型，在不做调参的情况下，想要只通过调整特征与数据提升效果时，首先，不要根据有偏分布什么的，把这个特征剔除。因为每一个特征都是一个视角，有的视角比较准确，但是有的视角思路清奇。但是每个视角都是有价值的，这时我们需要人为的参与，构造一些合适的视角来配合这些特征，对特征做再次的加工。越是没有重要性的特征，越是灵感的来源，提升的空间也越大！而预先剔除掉就亏大了。

专业知识的不同会让我们看待世界的视角也不一样，正所谓“凡有所学，皆成性格”。金融专业的同学会把“风险管理”放在首要位置，同时对“幸存者偏差”事件有着近乎本能的辨识度，非常厉害！但据我观察很多量化策略为了追求“理论的均值”，会唯数据论，放纵模型发挥，这一点需要格外注意。

这篇博客只使用SVM模型测算，更多机器学习模型请参考：https://blog.csdn.net/weixin_35757704/article/details/89280669

机器学习模型在量化择时中的应用

训练与预测流程

使用机器学习通常有以下几个步骤：

数据清洗
切分训练集、测试集
使用训练集，交叉验证模型的稳定性
测试集判断模型的有效性
应用模型测算、回测

因此我们将时间切分成以下两个部分：

训练、测试数据时间：2015-01-01到2020-01-01
应用模型测算、回测时间：2020-01-01到2023-01-01

训练数据特征构造

这里我们构造的特征简单一些，以方便大家复现：

过去5日换手率均值
过去10日换手率均值
过去5日涨跌幅
过去10日涨跌幅
MACD指标DIF值
MACD指标DEA值
MACD值
阿隆指标（一种动量指标）DOWN值
阿隆指标UP值

SVM模型与测算

SVM训练与预测

通常，拿到数据后，以最终收益为目标的模型，主要有以下几种训练目标：

直接预测未来一段时间的收益率
预测未来一段时间的收益所处的区间

机器学习模型由于性能有限，通常以收益率为最终目标时，会选择“预测未来一段时间的收益所处的区间”

因此我们按照以下规则进行训练、预测：

70%的数据做训练集，30%的数据做测试集
将【未来5日涨跌幅】作为预测目标，同时将数据分箱，分为：
- 收益率区间：[负无穷，-1]
- 收益率区间：[-1，1]
- 收益率区间：[1，正无穷]
训练集中，做10次交叉验证
测试集计算混淆矩阵，并可视化

上面的“交叉验证”是为了判断过拟合与欠拟合的问题的，很多文章容易把效果差的锅甩给“过拟合”，但明显是有问题的。关于过拟合与欠拟合请参考：https://blog.csdn.net/weixin_35757704/article/details/123931046

效果测算

测算的流程如下：

收集每一个非ST的股票在2015-01-01到2020-01-01的时间
然后根据个股的股价走势，构造成上面9个特征
按照70%的数据做训练集，30%的数据做测试集
对训练集做10份交叉验证

按照如上规则进行训练与预测，得到如下模型结果：

按照上述测算流程进行测算，在测试集上的准确率为 0.4751
归一化后的混淆矩阵如下：
使用10份交叉验证的结果如下：

准确率效果	0.492502	0.488092	0.478529	0.473529	0.485882	0.477647	0.477059	0.484118	0.480882	0.486176

在实际使用时，我们会根据模型的逻辑效果来判断：如果模型预测为正收益，则买入；如果预测为负收益，则卖出；

效果分析

交叉验证的效果与测试集的预测效果差不多，说明SVM模型表现较为稳定
SVM将0,1,2等类别几乎无差别的预测为了类别1，抛开本身类别为1的，单单计算0与2的准确率只有10%

这个效果算中规中矩，因为没有优化、调整、或者主观构造特征，裸模型的效果也就差不多这个效果…

有关量化择时——SVM机器学习量化择时（第1部分—因子测算）的更多相关文章

ruby-on-rails - Ruby on Rails : . 常量化 : wrong constant name error? - 2
我正在使用这个:4.times{|i|assert_not_equal("content#{i+2}".constantize,object.first_content)}我之前声明过局部变量content1content2content3content4content5我得到的错误NameError:wrongconstantnamecontent2这个错误是什么意思？我很确定我想要content2=\ 最佳答案你必须用一个大字母来调用ruby常量:Content2而不是content2。Aconstantnamestart
ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
ruby - 如何使用部分字符串搜索数组并返回索引？ - 2
我想使用部分字符串搜索数组，然后获取找到该字符串的索引。例如:a=["Thisisline1","Wehaveline2here","andfinallyline3","potato"]a.index("potato")#thisreturns3a.index("Wehave")#thisreturnsnil使用a.grep将返回完整的字符串，使用a.any?将返回正确的true/false语句，但都不会返回匹配的索引找到了，或者至少我不知道该怎么做。我正在编写一段代码，该代码读取文件、查找特定header，然后返回该header的索引，以便它可以将其用作future搜索的偏移量。如果
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG