原标题:不能尽知数据之害者,不能得数据之利(少数派投资)
来源:少数派投资
语言描述是很主观的,只有数据才客观,这是多数人的共识。
该层思维批判了如下情景:无视数据,只凭主观感觉下判断。此类问题,只要查一下数据就能明辨是非。
上述共识适用于对最浅层快思维直觉的否定,但还存在更慢的思维:
现实中,数据往往披着婆娑的外衣,有着更多的迂回和扭曲,并不是有了“数据支撑”就可以妄下结论,也不是有了数据就可以迷之自信、一路坦途。
本文借用《孙子兵法》的表述:不能尽知数据之害者,不能得数据之利。
注:原文为“不能尽知用兵之害者,不能得用兵之利”
我们先看一组案例:
例1:一则新闻:1924级耶鲁毕业生平均年收入为25111美元。(1949年统计)
例2:某感冒药广告:实验室数据显示,仅半盎司该药剂量在11秒钟内就杀死了试管中31108个细菌。
例3:2018年,某知名财经媒体发文《在自己先祖的土地上流浪》,其中引用规模以上民企数据,将调出规模以上口径的民企视为已死掉。
例4:某牙膏广告:“用户反映使用Doakes牌牙膏将使蛀牙减少23%”,该结论出自一家信誉良好的“独立实验室”,且通过了注册会计师的证实。
例5:智力测试中,小明101分,小亮99分,小明是否比小亮更聪明?
例6:某香烟品牌宣传:一家国家级杂志主持的实验证明该香烟在尼古丁含量方面“排名最后”,因此对人体伤害最小。
例7:观察数据:公鸡打鸣时间在天亮之前,得出结论:鸡叫是天亮的原因。
例8:亚里士多德统计了羽毛和石头的落地时间,前者用时更长,由此得出结论:重的物体比轻的物体落地更快。
例9:观察某股票价格变化,发现其一旦上涨会持续一段时间、下跌也有持续性,体现出某种股市中存在的可重复模式。
例10:一个50年的回测,无论是1968-1998年的样本内测试,还是1989-2015年的样本外测试收益都非常出色,且与其他主流因子,如市值、估值、动量等相关系数很低,年换手率仅10%。
本文围绕上述10个案例展开,我们不去探讨如何改进统计方法、多数情况下并不具备条件可以再统计一遍,而是从数据接受者的视角出发,思考如何减少有偏数据的误导,避免掉入“似是而非”的陷阱,从而看到数据背后更多的可能:
例1:耶鲁毕业生收入(数据的隐含假设)
1924级(此时已毕业25年)25111美元的人均收入,即便是真实的,也只是代表了“能够联系上的,并愿意站出来说出收入的一个特殊群体”,还要保证联系人能说真话。
通过还原隐含假设,我们看到了数据本身的“代表性”:这样的假设下的统计对象显然与我们内心默认的不是一回事。
想一想这些数据会是怎么统计的?有哪些隐含的假设?所反映的对象真的是我们普遍共识的样本吗?由此你会避免接受很多似是而非的数据。
《统计数字会撒谎》进一步提醒我们:
“即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。”
例2、3:感冒药广告与规模以上民企(偷换概念)
消费者心中的有效药物是能治好感冒,而药商宣传的却是能杀死试管中的细菌。
问题在于,到底是什么引起了感冒?试管中的细菌和感冒有没有关系?是不是同一种细菌?还是病毒?另外,试管中有效的、稀释后在人体内是否还有作用?对此,正在流鼻涕的患者们不会深究。
例3中,规模以上企业的定义是年主营业务收入为2000万及以上企业,当年不再满足的企业很可能是收入下降到了2000万以下,而不是倒闭死掉了。
正如《统计数字会撒谎》所言:
“如果你想证明某事,却发现没有能力办到,那么就试着解释其他相关事情,并假装它们是一回事。”
反观股票市场研究,目前主流的“反应不足”、“反应过度”的代理变量设置类似于此,从事前来看,原本就没有“反映适中”的合理定义,何来“不足”与“过度”?混淆事前与事后,强行用市值、换手率等指标来代理,打着旗号却根本没有解决问题本身。
例4:牙膏广告(选择性小样本数据拷问)
蛀牙减少23%的数据,即便有权威机构背书,也不可信。
关键在于数据的获取过程:多克斯公司让规模不大的一组人连续记录6个月的蛀牙数,接着使用多克斯牙膏。此后必然会出现如下三种结果中的一种:
①蛀牙增多;②蛀牙减少;③蛀牙不变
如果结果是①或③,多克斯公司会将之藏起、重新实验,由于机遇的作用,迟早有一组测试者将证明有很好的效果,“足以好到作为标题直至引发一场广告战”。
这是一个典型的故意拷问不充分小样本以误导消费者的案例。
现实中,别人展示给我们的数据,背后都有各种利益诉求,或多或少存在类似的问题,要关注常识、不应简单相信。
例5、6:智力测试与香烟广告(过分关注不必要误差)
智力测试只是一种测量工具,测量人们处理事先准备好的抽象问题的能力,但对这些能力我们甚至无法给出确切定义。
同时,该测试只是智力水平的一个抽样,具有统计误差,正常的智商并不是一个数值而是一个范围,处于这个范围、相差不大的比较则毫无意义。
至于香烟公司所引用的杂志数据,则是《读者文摘》某编辑发起的一项实验,其结论是“所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟,不会有任何差异。”
但问题在于,在一长串具有相同有害物质的品牌名单上,总会有一个排在最后,就是这家香烟品牌,但它在宣传时对于危害差异并不大的关键信息却省略掉了。
股票市场上,对历史数据的回测统计更应该警惕该问题。历史的股价中可能有必然的东西,但也有更大程度的偶然成分,正如《机器学习发展》一书所言“已有的演绎路径只是随机过程的可能结果之一,且未必是最有可能的未来”。
在此基础上,反复拷问出的回测更优很可能只是误差而已,不能简单作为评判标准,更不足以“恃”,由此带来的自以为的可把握感与迷之自信反而会导致预留的安全垫不足。
相比之下,各维度统计所反映的共性成分反而更有价值,适度抽象地理解数据结论会有更好的适用性。
例7:日出与公鸡打鸣(因先后发生而因果倒置)
日出与鸡叫有明显的相关性,该案有意思的一点在于,鸡叫一般发生在日出前,先发生的一定就是原因吗?中国古人就有“雄鸡一唱天下白”的诗句。
现代人了解更多的科学知识,从更高的框架下俯视,自然容易明辨是非。
但是,诸如此类有明确先后的相关现象,背后的因果解释真的就那么笃定吗?有没有其他的可能?该案至少是一个警示。
例8:亚里士多德(数据的真正用途是验证)
亚里士多德基于石头比羽毛更快落地的数据,得出了重的物体更快落地的结论,是一个典型的“有数据支撑”的误判。
并不是基于数据能够归纳出的规律就是对的,数据的真正用途是:验证。
基于亚里士多德的解释,伽利略做了一个简单推论:既然重的更快落地,那么10斤铁球应该比5斤铁球更快落地。
数据验证(证伪)了该推论:两个球同时落地,从而彻底推翻了亚里士多德的理论。
该案指出了大多数人使用数据的误区:数据导向,逻辑附和。
即先有统计结果,再倒过来想解释、拼凑理论,是当前经管类学术文献的通病,不要低估人自圆其说的能力,约束自身非理性就是行为金融学的应用。
恰当的姿势应当是:逻辑导向,数据验证。
观察到现象,先有理论的推导、得出合情假设,再用数据去验证,如此才可能是有意义的研究。
关键在于逻辑的推演,并提出可以用数据验证的预测(假说)。数据是死的,它任人摆布、没有可推演性、不具有证明能力,但逻辑不是这样,数据的价值只在于对严密逻辑的验证。
例9:看似规律性的股价图(随机数据也会给人规律性的错觉)
图1是《漫步华尔街》的一张图,它显示的是一只初始价格为50美元,随后每天的收盘价由抛硬币决定:如果是正面则涨0.5个百分点,反之则下跌0.5个百分点。
换言之,从概率视角看,这只假想股票的走势图由随机的抛硬币决定,它本身也是随机、无规律可言的。
多数人眼中的“规律性”可能只是“统计幻觉”的结果,这是对人性弱点的揭示。
对历史的复盘,尤其是低频的历史事件,我们要警惕“频率”倒推“概率”。
例10:样本内外均有效的策略(多数人低估了历史回测产生偶然高收益的可能)
仅仅基于图2中的回测数据,不少人或许已经迫不及待想要投资了。
事实上,该策略是数据挖掘的结果,就是简单买入美股代码前三个字母中带有S的股票,并做空前三个字母含有U的股票,这是机器学习方法,在成千上万个策略中选择出来的表现最好的策略。
了解了这些大家可能不再愿意接受它,这只是因为其原理已经荒诞到了足够的程度,至于其他能扯上一点所谓合理解释的反复拷问结果,就本质而言,又有什么区别?“似是而非”的危害远大于明显荒诞,因为前者还有“似是”的成分,更具迷惑性,结果却是一样的。
多数人其实低估了回测中产生偶然高收益的可能性,事后迎合着给出合理解释,并不能降低预判未来的不确定性。
综上所述,我们通过10个案例介绍了常见的数据误用,并提出了“逻辑导向,数据验证”的研究思路。需要注意的是,指出数据应用的误区,并不是要否定数据本身,而是站在数据接受者的角度,探讨如何更加客观地用好可得的数据。
数据不会说话,数据不可论证,数据是死的,但人是活的。