1、量化投資的決策依賴于大樣本下的統(tǒng)計(jì)顯著性,所以量化投資者會(huì)以更長(zhǎng)遠(yuǎn)的眼光來(lái)看待交易結(jié)果,不計(jì)較單筆交易的得失。
2、遺傳規(guī)劃的優(yōu)勢(shì)除了可以提升挖掘因子效率之外,更重要的是它可以突破人類的思維定式,挖掘出一些隱藏的、難以通過(guò)人腦構(gòu)建出來(lái)的因子。
3、機(jī)器學(xué)習(xí)是量化CTA策略的新方向,相較傳統(tǒng)線性模型提供了高維的非線性視角,可以更好地分類并提升擬合效果。而可視化可以打開(kāi)機(jī)器學(xué)習(xí)的黑箱。
4、從大類資產(chǎn)配置的角度看,由于低相關(guān)性,在持有股票型基金獲取阿爾法的同時(shí),配置CTA產(chǎn)品可以在資產(chǎn)組合的層面起到風(fēng)險(xiǎn)分散化的作用。
以上是朱雀基金量化組負(fù)責(zé)人章曉玨12月12日在“融入洪流”朱雀基金2021年度策略會(huì)上發(fā)表的觀點(diǎn)。以下是我們整理的演講精要:
量化CTA策略介紹
首先簡(jiǎn)單介紹一下什么是量化CTA策略。簡(jiǎn)而言之,就是用量化的手段構(gòu)建交易模型,由模型給出對(duì)期貨標(biāo)的走勢(shì)的漲跌判斷,從而在期貨上進(jìn)行做多、做空或多空雙向的操作,目的是為了獲得絕對(duì)收益。
目前國(guó)內(nèi)CTA的投資范圍還是股指期貨及期權(quán)、大宗商品期貨和國(guó)債期貨。至于投資策略,我們會(huì)用機(jī)器學(xué)習(xí)的手段做模式識(shí)別,從而給出價(jià)格預(yù)測(cè)。
量化CTA策略是如何盈利的呢?整體來(lái)說(shuō)它不像主動(dòng)投資那么地看重因果邏輯推演,而是更看重基于歷史行情大樣本下提取出來(lái)的量?jī)r(jià)統(tǒng)計(jì)規(guī)律,并且我們認(rèn)為在歷史上重復(fù)出現(xiàn)的量?jī)r(jià)規(guī)律大概率在未來(lái)也會(huì)繼續(xù)出現(xiàn)。這里的統(tǒng)計(jì)規(guī)律可看做是條件概率,也即在已發(fā)生的特定量?jī)r(jià)模式下,指數(shù)未來(lái)上漲或下跌的概率。
舉個(gè)例子,如果我們通過(guò)數(shù)據(jù)挖掘,發(fā)現(xiàn)當(dāng)指數(shù)在下跌超過(guò)一個(gè)點(diǎn)之后會(huì)加速下跌,我們就可以基于這個(gè)規(guī)律構(gòu)建簡(jiǎn)單的交易策略,當(dāng)指數(shù)日內(nèi)下跌超過(guò)一個(gè)閾值之后,我們就進(jìn)行跟隨開(kāi)空的操作,只要這個(gè)簡(jiǎn)單策略在歷史回測(cè)中所有單筆交易的總和是盈利的,比如每交易100筆里面有55筆盈利、45筆虧損,并且平均單筆盈利幅度大于虧損幅度,我們就認(rèn)為這是一個(gè)具有正收益期望的策略。
當(dāng)這個(gè)策略投入實(shí)盤(pán)運(yùn)作之后,我們不會(huì)再計(jì)較單筆交易的得失,而是看重長(zhǎng)期多筆交易累計(jì)之后的收益情況。因?yàn)楦鶕?jù)統(tǒng)計(jì)大數(shù)定理,單筆交易的盈虧有一定的隨機(jī)性,但是當(dāng)我們交易足夠多次之后,所有單筆交易的收益總和會(huì)逐漸接近策略本身的收益期望,而這是一個(gè)具有正期望的策略,所以長(zhǎng)期來(lái)看我們終將會(huì)盈利。這也是為什么量化投資者會(huì)以一個(gè)更長(zhǎng)遠(yuǎn)的眼光來(lái)看待交易策略,并且會(huì)更多地關(guān)注策略的收益期望。
接下來(lái)展開(kāi)講一下策略的單筆收益期望,大家可以把它理解成我們對(duì)策略長(zhǎng)期的盈利預(yù)期,它其實(shí)是由策略的勝率和盈虧比(賠率)決定的。
期望收益=勝率×盈虧比(賠率)
整體來(lái)說(shuō)不同持倉(cāng)周期策略的勝率往往不一樣,但一般而言對(duì)量化投資者來(lái)說(shuō)勝率高于50%的策略已經(jīng)是合格的策略了。當(dāng)然我們也可以通過(guò)對(duì)因子和模型持續(xù)優(yōu)化來(lái)不斷提高策略的勝率。盈虧比就是我們所說(shuō)的賠率,可以通過(guò)在策略中加入止損手段得到提高。
這是我們一個(gè)CTA子策略的單筆收益分布直方圖,橫軸代表策略單筆交易的收益區(qū)間,縱軸代表收益落在該收益區(qū)間的交易筆數(shù)。我們可以看到,單筆盈利大于0的交易占比高于50%,也即策略相比于隨機(jī)決策有更高的勝率。同時(shí)整個(gè)收益分布是向右偏移的,因?yàn)槲覀冏隽酥箵p,所以左側(cè)的虧損是截尾的而右側(cè)的盈利是長(zhǎng)尾的,也就是說(shuō)這個(gè)策略的盈虧比大于1。這是一個(gè)非常典型的正收益期望策略。而CTA的凈值就是由幾百幾千筆具有這樣收益特征的單筆交易一點(diǎn)一點(diǎn)累加起來(lái)的。
來(lái)源:朱雀基金
總結(jié)來(lái)看,量化CTA策略就是不斷從歷史行情數(shù)據(jù)中挖掘一些具有正期望的量?jī)r(jià)規(guī)律,再在實(shí)盤(pán)中根據(jù)市場(chǎng)的變化來(lái)進(jìn)行規(guī)律的匹配,從而快速改變投資方向。在這個(gè)過(guò)程中我們強(qiáng)調(diào)以大樣本下的期望作為我們的視野。
最后,我們認(rèn)為對(duì)CTA而言分散化是最好的風(fēng)控手段。我們的實(shí)盤(pán)經(jīng)驗(yàn)支持“分散化是金融市場(chǎng)中唯一免費(fèi)的午餐”這一說(shuō)法,也就是說(shuō)分散化可以在不引入額外風(fēng)險(xiǎn)的前提下增厚我們的收益。所以我們?cè)趯?shí)際投資時(shí),一直秉持交易品種的分散化、策略持倉(cāng)周期的分散化,和交易信號(hào)產(chǎn)生邏輯的分散化。
我們認(rèn)為機(jī)器學(xué)習(xí)是量化CTA策略的新方向,它相較傳統(tǒng)線性模型提供了高維的非線性視角,可以更好地分類并提升擬合效果。這里將機(jī)器學(xué)習(xí)CTA的流程拆分成四步:
Step 1:因子挖掘
主要指從原始的行情數(shù)據(jù)中提取可以描述當(dāng)前市場(chǎng)特征的因子,比如PB因子就可以用來(lái)描述當(dāng)前市場(chǎng)的整體估值。
Step 2:因子篩選
在控制因子間相關(guān)性的前提下,對(duì)第一步挖掘得到的因子進(jìn)行有效性檢驗(yàn),從中篩出對(duì)市場(chǎng)有預(yù)測(cè)效力的因子。
Step 3:機(jī)器學(xué)習(xí)
在得到有效因子池后,將因子輸入機(jī)器學(xué)習(xí)模型進(jìn)行因子組合,這里機(jī)器學(xué)習(xí)的任務(wù)是對(duì)歷史的因子樣本進(jìn)行學(xué)習(xí),并從中挖掘出具有正收益期望的規(guī)律。
Step 4:交易決策
在訓(xùn)練完機(jī)器學(xué)習(xí)模型后,模型就可以基于對(duì)實(shí)時(shí)行情數(shù)據(jù)的分析給出后市的漲跌預(yù)測(cè),從而指導(dǎo)實(shí)盤(pán)的投資決策。
以上是機(jī)器學(xué)習(xí)CTA的大體流程,近期我們的研究突破主要在第一步的因子挖掘和第三步的機(jī)器學(xué)習(xí)的可視化上。
傳統(tǒng)來(lái)說(shuō),因子挖掘主要由投資經(jīng)理根據(jù)自己的交易經(jīng)驗(yàn)和邏輯來(lái)手工完成,人工挖掘得到的因子因?yàn)榫哂休^強(qiáng)邏輯性,因此往往可以在較長(zhǎng)時(shí)間內(nèi)都保持有效。但缺點(diǎn)是因子挖掘的周期較長(zhǎng),并且這兩年隨著各家機(jī)構(gòu)研究的不斷深入,人工挖掘因子的效率不斷降低。所以我們?cè)趥鹘y(tǒng)的人工因子挖掘外引入了遺傳規(guī)劃,由算法自動(dòng)對(duì)因子進(jìn)行挖掘。算法挖掘因子的優(yōu)勢(shì)是可以依托計(jì)算機(jī)的強(qiáng)大算力,因子挖掘效率非常高,但缺點(diǎn)是由于因子的邏輯性較弱,所以需要定期的迭代更新來(lái)維持因子的有效性。
第二個(gè)突破點(diǎn)是在機(jī)器學(xué)習(xí)做因子組合上。我們對(duì)機(jī)器學(xué)習(xí)的可視化做了一些努力。后面我們會(huì)展開(kāi)來(lái)介紹下遺傳規(guī)劃因子挖掘和機(jī)器學(xué)習(xí)可視化這兩方面的突破。
遺傳規(guī)劃:跳出人類思維定式
遺傳規(guī)劃所做的事情,其實(shí)就是模擬了自然界中物競(jìng)天擇、適者生存的演化模式,通過(guò)優(yōu)化迭代的手段逐漸生成契合優(yōu)化目標(biāo)的因子,優(yōu)化的目標(biāo)往往被設(shè)定為因子對(duì)價(jià)格走勢(shì)的預(yù)測(cè)能力。
遺傳規(guī)劃的優(yōu)勢(shì)除了前面提到的可以提升因子挖掘的效率之外,更重要的是可以突破人類的思維定式,挖掘出一些隱藏的、難以通過(guò)人腦構(gòu)建的因子。同時(shí)我們也可以通過(guò)算法控制因子間的相關(guān)性,從而得到兩兩低相關(guān)的因子池。因?yàn)橐蜃娱g的高相關(guān)性會(huì)導(dǎo)致后續(xù)機(jī)器學(xué)習(xí)時(shí)模型的參數(shù)不穩(wěn)定,所以低相關(guān)的因子池可以在一定程度上使我們的模型更加穩(wěn)健。
接下來(lái)我們看看遺傳規(guī)劃的具體算法。首先,我們需要事先定義一個(gè)變量集和一個(gè)算子集,這里的變量往往是基礎(chǔ)的行情指標(biāo),而算子集中包含常規(guī)的運(yùn)算符,如加減乘除均值等等。然后我們會(huì)將變量和算子隨機(jī)組合生成大量的個(gè)體樣本,這里的每一個(gè)樣本個(gè)體都可以被翻譯成一個(gè)因子的公式表達(dá)式,從而得到初始種群。之后,我們會(huì)計(jì)算初始種群中每個(gè)個(gè)體對(duì)環(huán)境的適應(yīng)度,并從中選出適應(yīng)度高的個(gè)體作為下一代進(jìn)化的父代。因?yàn)檫m應(yīng)度是以因子對(duì)價(jià)格的預(yù)測(cè)效力衡量的,所以通過(guò)這一步我們就選出了對(duì)價(jià)格走勢(shì)有一定預(yù)測(cè)效力的因子集作為父代種群。有了父代種群之后,下一步就是遺傳變異。一部分父代個(gè)體可以直接進(jìn)入子代,而一部分父代將通過(guò)變異的方式,將部分因子結(jié)構(gòu)傳遞至下一代。
這里展示了幾種常見(jiàn)的變異方式。第一種交叉變異類似人類的染色體交叉,兩個(gè)適應(yīng)度較高的父代個(gè)體會(huì)互相交換一部分因子結(jié)構(gòu)生成子代,交叉變異較為保守,可以保留并傳承父代中“好”的因子結(jié)構(gòu)。第二種子樹(shù)變異會(huì)隨機(jī)替換父代樹(shù)結(jié)構(gòu)中的一個(gè)子樹(shù)。第三種點(diǎn)變異則是隨機(jī)替換父代樹(shù)結(jié)構(gòu)中的一個(gè)葉片。子樹(shù)變異和點(diǎn)變異更像基因突變,是比較激進(jìn)的變異方式,可以重新引入被淘汰的因子結(jié)構(gòu)來(lái)維持種群的多樣性。第四種提升變異可以理解為基因片段剪除,我們會(huì)隨機(jī)地從父代中移除一部分樹(shù)結(jié)構(gòu),這樣做可以防止因子結(jié)構(gòu)過(guò)于復(fù)雜而導(dǎo)致過(guò)度擬合。
數(shù)據(jù)來(lái)源:gplearn
那么,在第一代種群經(jīng)過(guò)一系列的遺傳變異之后,我們就可以得到第二代種群,整體來(lái)看,第二代種群中因子的適應(yīng)度會(huì)高于第一代,也就是第二代種群中因子對(duì)價(jià)格有更高的預(yù)測(cè)效力。這樣不斷循環(huán)迭代,我們就可以不斷提升種群中因子的有效性,最終得到對(duì)價(jià)格有較強(qiáng)預(yù)測(cè)效力的因子集。以上就是遺傳規(guī)劃的大致流程。
可視化:打開(kāi)機(jī)器學(xué)習(xí)的黑箱
我們的另一個(gè)新進(jìn)展是機(jī)器學(xué)習(xí)的可視化。機(jī)器學(xué)習(xí)策略的優(yōu)勢(shì),在于可以處理海量的歷史數(shù)據(jù),并且它的預(yù)測(cè)準(zhǔn)確率更高。同時(shí)機(jī)器學(xué)習(xí)有一定的自適應(yīng)性,可以不斷學(xué)習(xí)新的數(shù)據(jù)來(lái)優(yōu)化自身。但是因?yàn)闄C(jī)器學(xué)習(xí)特別是神經(jīng)網(wǎng)絡(luò)模型的決策流程是一個(gè)黑箱,所以這類模型一直以來(lái)也被批評(píng)可解釋性太差。那我們現(xiàn)在做的就是想打開(kāi)神經(jīng)網(wǎng)絡(luò)的黑箱,來(lái)看看它到底是如何做出價(jià)格預(yù)測(cè)的。
我們先以一個(gè)圖像識(shí)別的例子來(lái)說(shuō)明。假設(shè)我們已經(jīng)有了一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),如果我們要識(shí)別一張圖片里的動(dòng)物是貓還是狗,最經(jīng)典的做法就是把圖片先轉(zhuǎn)換成數(shù)字像素矩陣,然后輸入給卷積神經(jīng)網(wǎng)絡(luò),樣本在經(jīng)過(guò)若干層卷積層后,最后由softmax函數(shù)來(lái)給出這是一只貓或者狗的概率。
在深度學(xué)習(xí)模式下,圖片從輸入模型到輸出結(jié)果中間可能要經(jīng)過(guò)幾百層的卷積層,整個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)非常復(fù)雜,人腦很難解釋清楚它的內(nèi)部決策機(jī)制。而可視化可以告訴我們,在神經(jīng)網(wǎng)絡(luò)給出判斷的時(shí)候,主要讀取了圖片里哪些局部區(qū)域的特征。
具體到算法層面,我們可以計(jì)算最后一層隱含層的激活函數(shù)值和它的梯度斜率,然后以熱力圖的形式來(lái)表征每個(gè)局部特征的重要性。這里熱力圖的顏色越紅表示這塊區(qū)域?qū)D像識(shí)別越重要,反之顏色越偏藍(lán),表明該區(qū)域越不重要。我們可以看到神經(jīng)網(wǎng)絡(luò)在判斷動(dòng)物類別的時(shí)候,主要是讀取了貓和狗的頭部區(qū)域和身體花色的特征,這其實(shí)是非常明智的。
然后我們?cè)賮?lái)看在CTA策略中,神經(jīng)網(wǎng)絡(luò)模型在預(yù)測(cè)后市漲跌的時(shí)候,主要是基于了哪些特征因子。這里的熱力圖是對(duì)CTA神經(jīng)網(wǎng)絡(luò)模型可視化后的結(jié)果,圖中每一列代表一個(gè)因子,從左到右逐漸從趨勢(shì)因子過(guò)渡到反轉(zhuǎn)因子。
我們可以看到在2015年6月的時(shí)候,熱力圖左側(cè)區(qū)域更為明亮,也就是說(shuō)神經(jīng)網(wǎng)絡(luò)在價(jià)格預(yù)測(cè)的時(shí)候更側(cè)重于趨勢(shì)因子,結(jié)合當(dāng)時(shí)連續(xù)上漲的行情來(lái)看,神經(jīng)網(wǎng)絡(luò)這一選擇是正確的。而在2015年8月,此時(shí)市場(chǎng)已經(jīng)經(jīng)歷了股災(zāi)、上行趨勢(shì)被打破,這時(shí)熱力圖的右側(cè)區(qū)域更亮,也就是說(shuō)此時(shí)神經(jīng)網(wǎng)絡(luò)在做預(yù)測(cè)的時(shí)候,給了反轉(zhuǎn)指標(biāo)更多權(quán)重。由此可以得出神經(jīng)網(wǎng)絡(luò)在做訓(xùn)練的時(shí)候,可以通過(guò)不斷吸納學(xué)習(xí)新的數(shù)據(jù)來(lái)調(diào)整模型自身,并且它在實(shí)盤(pán)做出價(jià)格預(yù)測(cè)的時(shí)候也較好地適應(yīng)了市場(chǎng)環(huán)境的變化。
在CTA之外,我們今年也對(duì)阿爾法策略做了升級(jí)改造。阿爾法策略可以分為兩類:一類用量化手段選出可以戰(zhàn)勝基準(zhǔn)指數(shù)的股票組合,也就是指數(shù)增強(qiáng)策略,另外是在指數(shù)增強(qiáng)的基礎(chǔ)上疊加相應(yīng)股指期貨的空頭頭寸來(lái)對(duì)沖市場(chǎng)風(fēng)險(xiǎn)從而獲得絕對(duì)收益,也就是量化對(duì)沖策略。所以阿爾法策略的核心還是在于選股,下圖對(duì)量化選股的流程做了拆解,可,分為因子挖掘、因子組合和組合優(yōu)化這三步。
第一步,因子挖掘的目的是找出一些可以預(yù)測(cè)股票未來(lái)相對(duì)強(qiáng)弱的選股因子,數(shù)據(jù)源包括個(gè)股的基本面、量?jī)r(jià)特征、資金流、分析師對(duì)個(gè)股的一致預(yù)期等等。第二步會(huì)把因子放入機(jī)器學(xué)習(xí)模型做因子組合。最后通過(guò)對(duì)股票流動(dòng)性的篩選確定選股范圍,再用組合優(yōu)化的手段,使得所選股票組合在風(fēng)格和行業(yè)上的分布盡可能貼近基準(zhǔn)指數(shù),從而得到一個(gè)跟蹤誤差低,但同時(shí)又可以跑贏基準(zhǔn)指數(shù)的股票組合。
明年我們就會(huì)推出全新的量化產(chǎn)品,用的策略是CTA+阿爾法策略,用機(jī)器學(xué)習(xí)的手段,挖掘股票和期貨里面的機(jī)會(huì),也請(qǐng)大家關(guān)注。
來(lái)源:朝陽(yáng)永續(xù)
我們一直說(shuō)CTA是一種非常好的危機(jī)保護(hù)策略,因?yàn)檫@類策略往往可以在市場(chǎng)大幅下跌時(shí)候取得非常不錯(cuò)的收益,例如今年2月3日和3月份市場(chǎng)大跌的時(shí)候,我們的量化CTA產(chǎn)品都表現(xiàn)不錯(cuò)。從大類資產(chǎn)配置的角度看,由于低相關(guān)性,在持有股票型基金獲取阿爾法的同時(shí),配置CTA產(chǎn)品可以在資產(chǎn)組合的層面起到風(fēng)險(xiǎn)分散化的作用。
注:本文件非基金宣傳推介材料,僅作為本公司旗下基金的客戶服務(wù)事項(xiàng)之一。
本文件所提供之任何信息僅供閱讀者參考,既不構(gòu)成未來(lái)本公司管理之基金進(jìn)行投資決策之必然依據(jù),亦不構(gòu)成對(duì)閱讀者或投資者的任何實(shí)質(zhì)性投資建議或承諾。本公司并不保證本文件所載文字及數(shù)據(jù)的準(zhǔn)確性及完整性,也不對(duì)因此導(dǎo)致的任何第三方投資后果承擔(dān)法律責(zé)任。
本文所載的意見(jiàn)僅為本文出具日的觀點(diǎn)和判斷,在不同時(shí)期,朱雀基金可能會(huì)發(fā)出與本文所載不一致的意見(jiàn)。本文未經(jīng)朱雀基金書(shū)面許可任何機(jī)構(gòu)和個(gè)人不得以任何形式轉(zhuǎn)發(fā)、翻版、復(fù)制、刊登、發(fā)表或引用。