證券日?qǐng)?bào)微信

證券日?qǐng)?bào)微博

您所在的位置: 網(wǎng)站首頁(yè) > 量化百問(wèn) > 正文

《微觀量化百問(wèn)》第十四期 模型和模型訓(xùn)練中的過(guò)擬合

2024-10-22 19:16  來(lái)源:證券日?qǐng)?bào)網(wǎng)

    談到量化投資,我們經(jīng)常會(huì)聽(tīng)到“模型”這個(gè)詞,量化投資中的模型是什么概念?又該如何理解模型訓(xùn)練中的“過(guò)擬合”問(wèn)題?本期專欄將圍繞相關(guān)專業(yè)話題進(jìn)行探討。

    Q53:何為模型?如何區(qū)分模型與算法?

    一般而言,模型(Model)由數(shù)據(jù)及如何使用歷史數(shù)據(jù)對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)的過(guò)程組成。而算法(Algorithm)指執(zhí)行一種優(yōu)化過(guò)程,即在訓(xùn)練數(shù)據(jù)集上讓模型的誤差最小化。

    在機(jī)器學(xué)習(xí)領(lǐng)域,“機(jī)器學(xué)習(xí)算法”經(jīng)常與“機(jī)器學(xué)習(xí)模型”交替使用——前者指的是在數(shù)據(jù)上運(yùn)行以創(chuàng)建機(jī)器學(xué)習(xí)“模型”的過(guò)程,后者著重表達(dá)用于進(jìn)行預(yù)測(cè)所需的規(guī)則、數(shù)字和任何其他特定于算法的數(shù)據(jù)結(jié)構(gòu)。

    在模型開(kāi)發(fā)/模型預(yù)測(cè)、模型訓(xùn)練/預(yù)測(cè)值合并等環(huán)節(jié)中會(huì)將提取到的特征或Alpha因子進(jìn)一步加工,得到“更優(yōu)Alpha”。早期量化私募的模型開(kāi)發(fā)以線性模型為主,隨著非線性模型(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型)占比逐步提升,其模型復(fù)雜度、參數(shù)相比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)模型有了很大提升,預(yù)測(cè)效果也更好,量化機(jī)構(gòu)整體投資能力獲得較大進(jìn)步——具體到如何精細(xì)化處理樹(shù)模型、神經(jīng)網(wǎng)絡(luò)模型等也從側(cè)面體現(xiàn)出各家研究深度和廣度的不同。

    Q54:量化投資通用預(yù)測(cè)模型有哪些?

    量化投資的環(huán)節(jié)中所采用的模型大致可以分為三類(lèi):因子挖掘模型、預(yù)測(cè)模型和組合優(yōu)化及交易算法模型。其中預(yù)測(cè)模型的發(fā)展總體而言是從簡(jiǎn)單到復(fù)雜、未來(lái)還要更復(fù)雜的迭代過(guò)程。目前,業(yè)內(nèi)比較通用的預(yù)測(cè)模型包括:

    (1)注重可解釋性的線性模型:OLS

    (2)統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)模型:Lasso、SVM、GBDT

    (3)可端到端的深度學(xué)習(xí)模型:DNN、LSTM、Transformer、GNN

    Q55:什么是過(guò)擬合?

    過(guò)擬合(overfitting)是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的常用概念,可分為訓(xùn)練過(guò)擬合和回測(cè)過(guò)擬合兩個(gè)層次:

    一、訓(xùn)練過(guò)擬合是機(jī)器學(xué)習(xí)語(yǔ)境下偏狹義色彩的過(guò)擬合,指“機(jī)器學(xué)習(xí)模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集或新數(shù)據(jù)上表現(xiàn)較差”。產(chǎn)生原因是模型超參數(shù)選擇不當(dāng)或模型過(guò)度訓(xùn)練,解決方案通常是采用合理的交叉驗(yàn)證方法選擇模型超參數(shù)。

    二、回測(cè)過(guò)擬合是量化研究語(yǔ)境下偏廣義色彩的過(guò)擬合,指“量化模型在回測(cè)階段表現(xiàn)好,在實(shí)盤(pán)階段表現(xiàn)差”。產(chǎn)生原因是市場(chǎng)規(guī)律發(fā)生變化,或者對(duì)回測(cè)階段數(shù)據(jù)噪音的過(guò)度學(xué)習(xí)。回測(cè)過(guò)擬合難以根除,相對(duì)合理的解決方案是借助量化指標(biāo)檢驗(yàn)回測(cè)過(guò)擬合程度。

    Q56:如何預(yù)防過(guò)擬合?

    當(dāng)模型過(guò)于復(fù)雜、參數(shù)數(shù)量過(guò)多、學(xué)習(xí)能力太強(qiáng)時(shí),容易出現(xiàn)模型對(duì)于訓(xùn)練集以外的數(shù)據(jù)泛化能力差,表現(xiàn)為過(guò)擬合。

    由于大多數(shù)機(jī)器學(xué)習(xí)模型并不是專門(mén)為金融時(shí)間序列開(kāi)發(fā)的,這些模型在量化建模中的應(yīng)用需要適時(shí)調(diào)整。所以將機(jī)器學(xué)習(xí)應(yīng)用到量化投資領(lǐng)域時(shí),在模型訓(xùn)練中如何預(yù)防和避免過(guò)擬合顯得尤為重要,需要綜合考慮預(yù)測(cè)精度、模型可解釋性、模型魯棒性和計(jì)算復(fù)雜性等因素。其中金融時(shí)間序列預(yù)測(cè)必須避免使用未來(lái)信息,有時(shí)更傾向于隨著時(shí)間的推移將時(shí)間序列分成訓(xùn)練、驗(yàn)證和測(cè)試塊,即進(jìn)行前向驗(yàn)證,而非模型超參數(shù)優(yōu)化中的交叉驗(yàn)證。

    在深度學(xué)習(xí)中,超參數(shù)的選擇對(duì)模型的訓(xùn)練和泛化性能有很大的影響——如果超參數(shù)過(guò)大,可能會(huì)導(dǎo)致模型過(guò)擬合,因此需要根據(jù)數(shù)據(jù)集和模型結(jié)構(gòu)進(jìn)行調(diào)整。這里的超參數(shù)是指那些需要手動(dòng)設(shè)置的參數(shù),這些參數(shù)不能直接從數(shù)據(jù)中學(xué)習(xí)得到,而需要通過(guò)持續(xù)調(diào)整和優(yōu)化參數(shù)來(lái)得到最優(yōu)的模型。

    Q57:還有哪些原因可能導(dǎo)致模型回測(cè)與實(shí)盤(pán)中表現(xiàn)不一致?

    模型在回測(cè)與實(shí)盤(pán)中表現(xiàn)不一致是投資領(lǐng)域中普遍存在的現(xiàn)象,并不都是過(guò)擬合導(dǎo)致的,還可能與以下因素有關(guān):

    (1)數(shù)據(jù)偏差:回測(cè)時(shí)使用的歷史數(shù)據(jù)可能與實(shí)際市場(chǎng)環(huán)境存在一定差異;

    (2)滑點(diǎn)和交易成本:實(shí)際交易中存在的滑點(diǎn)和交易成本都應(yīng)在回測(cè)時(shí)進(jìn)行預(yù)估;

    (3)策略實(shí)現(xiàn)限制:在實(shí)盤(pán)交易中,策略實(shí)現(xiàn)效果可能會(huì)受交易執(zhí)行速度、交易執(zhí)行規(guī)模等因素的影響;

    (4)市場(chǎng)已發(fā)生變化:由于金融市場(chǎng)由不同參與者組成,投資者結(jié)構(gòu)及投資者行為均會(huì)發(fā)生變化。金融市場(chǎng)還受整體宏觀環(huán)境、政治和經(jīng)濟(jì)等因素影響。所以不同階段市場(chǎng)運(yùn)行規(guī)律會(huì)發(fā)生一定的變化,基于過(guò)去總結(jié)的有效規(guī)律在未來(lái)也未必有效。

    (CIS)

-證券日?qǐng)?bào)網(wǎng)
  • 24小時(shí)排行 一周排行

版權(quán)所有證券日?qǐng)?bào)網(wǎng)

互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120180014增值電信業(yè)務(wù)經(jīng)營(yíng)許可證B2-20181903

京公網(wǎng)安備 11010202007567號(hào)京ICP備17054264號(hào)

證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。

證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800

網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net

官方客戶端

安卓

IOS

官方微信

掃一掃,加關(guān)注

官方微博

掃一掃,加關(guān)注