量化读书会6:线性交易模型的成与败
岑秋苑:量化读书会5:当我们谈论交易系统的可理解性时,我们想要的究竟是什么?
当我们需要学习或者研究一个新的事物的时候,通常需要找一个最简单的开始。在研究复杂交易模型的时候,线性模型就是这样一个简单的对象。
什么是线性模型呢?
公式1描述的就是一个线性模型。
为了更好理解,我们先来一个例子。比如我们想买一个房子,需要给房子一个估价。我们首先要考虑影响房价的因素有哪些,能想到的包括:房子的大小、楼层、采光、楼龄、周边配套、是不是学区、是不是五满唯一等等。假设我们有最近一周全市200套住房的成交价格,并且可以获取到这些房子的相关信息,我们就可以构建一个模型,来估计一套还没有成交的房子的报价是否合理。(实际构建交易模型也差不多是这样,你需要找到一些影响从现在到未来某一时点价格变动的因素,建立价格变动和这些因素间的关系)
到 就是构建模型需要输入的因素,这些因素既可以是连续的数字,也可以是类别,各有不同的处理方法。y对应每一个房子的房价。
那么如何给这些因素加一个权重呢?可以主观加。比如我认为房子大小和采光最重要,大小和采光时间在模型中的 都给1,其他因素都不考虑, 都是0。但是这样的建模方法通常会非常不准确,因为市场中其他人对于房价的判断因素很可能和你不同。想要更合理的构建模型,从人的角度,你需要进行一些训练。
最好的训练,就是你拿出之前200套成交的案例,用手挡住成交价格,然后根据其影响因素,逐一猜测其成交价格,尽可能让你的猜测结果和其实际价格接近。
当然,人一个一个猜,一个一个总结规律,既累,又不准确。
还有没有更好的办法呢?为了更科学地构建线性模型,人们发明了一些工具,常见的就是OLS最小二乘法。OLS的目标,就是通过200套成交的案例训练,寻找一个模型,可以让你猜测的结果最接近实际情况一些。
线性模型:成
使用线性模型有不错的好处。
首先线性模型虽然简单,但仍然是一个综合性模型。但凡对你预测对象有影响的因素,你都可以加到模型里面去,模型可以自动帮你找到预测对象和影响因素之间,相对准确的关系。综合和自动,可以大大解放人类的研究工作。你不需要一个房子一个房子的仔细研究,只需要把200个房子一次性丢给模型,模型就可以给你一个大致的解释。
当然,实际上线性模型也并不是那么傻瓜,也需要人来解决一些问题,但这个时候,线性模型的另一个好处就凸显出来了,就是线性模型有庞大的使用者社区。
在各个领域,都有大量线性模型的拥护者,他们深入的研究线性模型在各种使用场景下的案例和问题,并提出了大量的解决方案。各种量化分析的软件,都自带构建线性模型和分析线性模型的工具,你几乎可以只调用一行命令,就完成一次建模。
因此,你不需要自己去创造问题的解决方案,只需要去搜索一下解决方案,或者查查文献,前人就给你准备好了方案。你也不需要自己去写工具代码,只需要用别人写好并且被成千上万人测试过的工具,就可以完成你需要的工作。
最后,回到可解释性上。线性模型天然具有非常好的解释性。在模型合理构建的条件下,你可以轻松地看到每一个影响因素对预测结果的影响。当模型给出一个结论的时候,你可以轻松反推出究竟是哪一个因素在起主导作用;反过来,如果你口算能力足够,你只需要建好模,即使没有电脑,你也可以大致算出模型的预测结论,毕竟会乘法和累加就足够了。
线性模型:败
天下没有免费的午餐。一个看似又好用又简单的模型,肯定也会有一些不足。线性模型最大的问题,就是其构建过程,有太多不符合实际的假设。为了解决这些假设的不完美,你需要做大量的工作,要不然错误的假设就会给你带来错误的结果。
问题1:线性
线性假设下,一个影响因素从1增加到5,和从1001增加到1005,在模型中的影响是相同的。但是1-5和1001-1005所引起的变化程度,可能是天壤之别。另外,中国有句话叫”过犹不及”,一个因素值太大,带来的结果可能是相反的。为了解决线性问题,你就不能够随意的把影响因素直接丢到模型里面,而需要做很多调整。错误的调整会导致错误的结论,这是非常烦人的一点。
问题2:独立性
这是用线性模型构建交易模型另一个不好的地方。市场中的信息并不是在时间上均匀分布的。比如你每隔1分钟抽一次样,你抽取的前1个小时的60个样本,可能由于市场没有信息没怎么动,因此,无论是影响因素还是预测结果,都是几乎一样的。而在第61一个样本上,市场发生了突然的运动,反映了完全不同的信息。如果你按照60:1来描述市场状态的概率,你就相当于在统计上进行了大量的重复采样,你将大概率无法捕捉到对获利更有帮助的这一次突然的运动。
问题3:共线性
交易中常使用一些技术指标,这些指标通常是把过去一段时间的价量信息进行排列组合加减乘除,因此往往具有很高的相关性。如果将这些指标作为几个因素放在交易模型当中,其会大大扰乱β值的描述意义。本来两个和结果正相关的因素,可能因为共线性,变成了一个β是很大的正值,另一个β是很大的负值。对于这一问题,一些使用者觉得对于模型的预测结果,影响可以接受。但是对于模型的可解释性,共线性将带来毁灭性的损失。
问题4:同方差
传统线性模型假设不同的预测目标,服从相同方差的同一分布。但是实际通常不是如此。大房子的房价方差通常比小房子大很多。市场活跃的交易日,价格波动的方差会更大。异方差将削弱模型的能力。
问题5:正态性
预测对象需要符合正太分布。非正态分布将影响模型,需要调整。
因此,简单线性模型,看起来很美好,但是很多时候,如果不经过细致的调整,弄出来的模型的预测性,往往还不如仅仅使用单一因素直接判断。过于天真的假设,常常在应对实际问题的时候捉襟见肘。作者在之后会进一步阐述一些帮助理解线性模型的工具,以及一些扩展的,可以解决简单线性模型部分问题的“更高级”的线性模型。敬请期待。
Reprinted from 知乎,the copyright all reserved by the original author.
Disclaimer: The content above represents only the views of the author or guest. It does not represent any views or positions of FOLLOWME and does not mean that FOLLOWME agrees with its statement or description, nor does it constitute any investment advice. For all actions taken by visitors based on information provided by the FOLLOWME community, the community does not assume any form of liability unless otherwise expressly promised in writing.
FOLLOWME Trading Community Website: https://www.followme.com
Hot
-THE END-