高频买卖怎样下单?AI给出谜底→
期货日报
在金融市场的高频买卖范畴,收益率的可猜测性始终是学术界跟投资者存眷的核心。高频收益率在差别市场情况下的可猜测性对买卖战略的制订跟履行存在深远的影响。
在本文中,咱们将简述Yacine Aït-Sahalia、Jianqing Fan等人在其论文《How and When are High-Frequency Stock Returns Predictable?》中的重要发明,这些发明为高频收益率的可猜测性供给了实践基本跟实证根据。
随后,咱们将先容咱们在海内期货市场的实证研讨流程,包含数据集先容、因子结构、猜测目的设定及练习方式等。
最后,咱们将剖析海内实证的成果,重要包括模子的猜测表示以及猜测区间跟日内效应答模子猜测才能的影响。别的,咱们还摸索了模子在现实下单战略中的利用,并经由过程模仿回测的方法比拟了其与传统下单算法的机能差别。
参考文献:
论文《How and When are High-Frequency Stock Returns Predictable?》应用呆板进修方式,深刻研讨了超高频股票收益在差别维度下的可猜测性跟连续性。研讨发明,与中临时收益率比拟,高频收益率在短期内表示出明显、体系且广泛的可猜测性。
详细来说,作者先从买卖跟报价数据中构建了一系列猜测因子,并探究了差别市场情况下股票可猜测性变更的起因。跟着高频数据时效性进步,可猜测性也会明显加强,作者对这种变更停止了量化剖析。最后,作者经由过程模仿试验,研讨了提前获取局部订单流偏向(即便是不完善的信息)对猜测才能的影响。这种前瞻性平日由最快的高频买卖者控制,可能明显晋升收益率的可猜测性跟连续性。
海内实证
1.数据集先容
研讨种类:燃料油FU、螺纹钢RB。
仅斟酌活动性最好的主力合约。
时光范畴:2023/08/17—2023/11/16。
2.因子结构
在原文献中,作者基于限价订单簿及逐笔成交数据构建了13个因子。遗憾的是,海内期货市场的高频数据与外洋的股票高频数据存在较年夜差别(逐笔成交数据缺掉且数据频率存在差别),使得此中7个因子无奈复现。为了进一步晋升模子的猜测才能,咱们启动了一项普遍的高频因子网络跟开辟任务。终极,咱们收拾并开辟了超越130个高频因子,并将其归入华泰期货的高频因子库。对每个因子,咱们都市求其在10个回溯区间的均值作为后续呆板进修模子的输入(特点),统共有1300+特点作为后续呆板进修模子的输入。
3.猜测目的
咱们的猜测目的是将来10个Tick(5秒)的收益率,盘算方法为将来一段时光内的均匀成交价钱与以后旁边价的比值减1:
4.模子抉择
在实证进程中,咱们重要应用了3种线性回归模子(OLS、Ridge、Lasso)以及3种呆板进修回归模子(随机丛林、XGBoost、LightGBM)停止拟合。
5.特点挑选
为了进步猜测精度跟效力,咱们对每一个回归模子(除了OLS)都停止了特点的预挑选:
第一步,先用小样本(前10天)的数据停止模子拟合(全体特点作为输入)。
第二步,对LASSO模子,抉择回归系数不即是0的特点作为无效特点;对Ridge模子,抉择回归系数相对值排在前200的特点作为无效特点;对决议树类模子,拔取特点主要性年夜于0的特点作为无效特点。
第三步,将无效特点作为输入,在全样本长进行模子拟合跟练习。
6.模子练习
咱们练习模子的进程与原文献基础坚持分歧。练习详细流程如下:
1.进修阶段(Learning):对每一组超参数跟tT= T, T+5, T+10,...等时光点,应用从第T天到第T+4天(共5个买卖日)的数据来练习一个模子。在随后的5天区间[T+5,T+9]内评价这个模子,并为测试会合的每一天盘算样本外R²。
2.调参阶段(Tuning):抉择最年夜均匀R²值的超参数组合(盘算从T+5到T+19这段时光内全部测试日R²值的均匀值,共有15个测试日),并牢固这组超参数用于下一步的猜测。
3.猜测阶段(Predicting):对每个T = T+20, T+21, ...等时光点,应用从第T-5天到第T-1天的数据来练习一个模子,并应用该模子来猜测第T天的成果。
4.转动窗口(Rolling):将全部时光窗口向前转动20个买卖日,即T变为T+20,而后反复步调1至4。
海内实证成果
猜测表示:因为原文献在实证成果环节中重要应用5秒作为日历时钟的猜测区间,因而咱们也以猜测区间5秒(10个Tick)为例,展现各模子在FU跟RB上的猜测成果。
收益率猜测:从40天测试集(Test set)的样本外R方上看,高频多因子模子在RB(螺纹钢)上的猜测表示优于FU(燃料油),最佳模子的样本外R方分辨为20.74%及15.05%,均优于文献中的样本外R方中位数10%。该成果合乎预期,由于咱们额定引入了较多新的高频因子,使得模子更能捕获到订单簿数据中的微不雅特点。
偏向猜测:从40天测试集(Test set)的偏向正确性上看,高频多因子模子在RB(螺纹钢)上的猜测表示同样略优于FU(燃料油),最佳模子的偏向正确性分辨为64.86%及62.97%,濒临于文献中的样本外偏向正确性64%。
从模子层面上看,LASSO模子在这两个种类上都是表示最佳的模子。
因为在参数模子中,LASSO模子表示最佳;在非参数模子中,LGBM模子团体表示最佳。因而,咱们后文进一步的实证剖析仅针对LASSO模子跟LGBM模子。
2.猜测区间
文献提到,高频收益率在较短区间内的可猜测性很强,但跟着区间的延伸而逐步削弱。咱们针对这一观念在海内实证环节做了验证,失掉了分歧的论断:以种类RB,模子LASSO为例,跟着猜测区间从10个Tick延伸到120个Tick,样本外R方从20.74%枯燥递加至4.94%,样本外偏向正确性从64.86%枯燥递加到53.97%。
3.日内效应
咱们发明,天天凌晨跟下战书收盘时,模子的猜测表示明显弱于其余时段。一个公道的说明是,收盘初期的买卖反应了投资者对隔夜(半夜)消息、布告及寰球市场静态的综合反应,这些信息的敏捷涌入跟消化进程中发生了较年夜的市场不合与稳定,存在较多噪声,招致因子猜测后果削弱。
现实利用(以下单算法为例)
在本大节中,咱们专一于该模子鄙人单层面的现实利用。
1.模仿测试
模仿配景:当初,咱们假设有一投资者须要在短时光内下200手买单。针对这一需要,咱们经由过程回测的方法对照差别算法下的下单本钱。
参数设定:测试的参数有两个,分辨是下单的总时光,以及拆单的次数。咱们测算了下单总时光在1分钟、5分钟、10分钟,以及拆单次数在10次、20次、30次下的下单本钱。
2.下单算法
TWAP:时光距离牢固,将买卖订单在一段时光内平均调配。
VWAP:时光距离牢固,但依据前5天同时段的成交量,加权调配单次的下单量
ModelPrice:基于高频因子模子的下单算法,起首平均拆分订单量实时间段,在每个时光段中,当模子猜测将来5秒收益率年夜于0时才下单,不然等候,假如在时光段停止时仍未触发开仓前提则强迫开仓。
3.模仿成果
从最优概率上看,基于高频因子的下单算法在样本外的模仿中有大概75%的概率是三者中最优的算法。从均匀滑点上看,基于高频因子的下单算法的均匀滑点明显优于TWAP算法跟VWAP算法,均匀约有0.15跳的优化。
新浪财经大众号
24小时转动播报最新的财经资讯跟视频,更多粉丝福利扫描二维码存眷(sinafinance)