← 返回首页

基于图网络的量化因子自动挖掘方法 — 深度技术调研报告

2026-05-16

基于图网络的量化因子自动挖掘方法 — 深度技术调研报告

调研日期: 2026-05-16 所属领域: quant + agent 报告版本: v1.0


目录

  1. 第一部分:概念剖析
  2. 第二部分:行业情报
  3. 第三部分:方案对比
  4. 第四部分:精华整合

第一部分:概念剖析

1.1 定义澄清

通行定义

基于图网络的量化因子自动挖掘是指将股票、因子等金融实体建模为图结构(节点表示股票或因子,边表示它们之间的相关性、因果关系或进化关系),利用图神经网络(GNN)、超图卷积网络(HyperGCN)等深度学习模型,从市场数据中自动发现具有预测能力的 Alpha 因子的方法论体系。其核心目标是在高噪声、低信噪比的金融数据中,通过结构化的关系建模提升因子发现的效率和鲁棒性。

常见误解

# 误解 澄清
1 "图网络因子挖掘 = 用 GCN 预测股票涨跌" GCN 预测涨跌只是应用之一,图挖掘的核心在于因子间关系建模因子空间的拓扑结构发现,而非仅做价格预测
2 "图结构可以完全替代人工因子库" 图方法擅长挖掘非线性交互高阶关系,但经典因子(动量、价值等)提供的金融先验仍然不可或缺;最佳实践是"先验因子 + 图挖掘隐因子"的混合范式
3 "因子越多,图模型效果越好" 金融数据信噪比极低,冗余因子会引入虚假相关性;图模型的拓扑正则化虽能缓解过拟合,但质量控制(稀疏性约束、多样性惩罚)仍是必要组件

边界辨析

传统遗传规划(GP)因子挖掘的核心区别:GP 在符号表达式空间中进行随机搜索和杂交变异,将每个因子视为独立的数学表达式;而图网络方法将因子置于关系拓扑中,利用消息传递机制让因子之间"互相学习"——因子 A 的进化路径可以指导因子 B 的生成。与LLM 因子挖掘的区别:LLM 依赖大模型的语义理解和代码生成能力,而图网络方法依赖结构化关系推理拓扑优化,二者正在走向融合(如 AlphaSAGE 中 RGCN 作为 LLM 的编码器)。

1.2 核心架构

┌──────────────────────────────────────────────────────────┐
│              基于图网络的量化因子挖掘系统架构              │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  [数据层]                                                │
│  原始行情 + 基本面 + 另类数据                             │
│      ↓                                                   │
│  [因子计算层]                                            │
│  基础因子池(Alpha158/360/101) — 作为图节点初始特征         │
│      ↓                                                   │
│  [图构建层]                        [辅助组件]             │
│  ┌─────────────────┐            ┌──────────────────┐     │
│  │ 股票-股票关系图   │            │ 贝叶斯因子检索器  │     │
│  │ 因子-因子进化图   │            │ (AlphaPROBE)      │     │
│  │ 股票-因子超图     │            │ 多样性惩罚机制     │     │
│  │ 时序因果图       │            │ AST执行沙箱       │     │
│  └───────┬─────────┘            └──────────────────┘     │
│          ↓                                                │
│  [图神经网络处理层]                                        │
│  ┌──────────────────────────────────────────────┐        │
│  │ RGCN / HyperGCN / GAT / GFlowNet 等          │        │
│  │ 消息传递 → 节点更新 → 拓扑感知编码            │        │
│  └──────────────────────┬───────────────────────┘        │
│          ↓                                                │
│  [因子生成/优化层]                                        │
│  ┌──────────────────────────────────────────────┐        │
│  │ DAG感知因子生成器 / VQ离散因子 / MCTS搜索    │        │
│  │ 从图拓扑中生成新因子表达式                     │        │
│  └──────────────────────┬───────────────────────┘        │
│          ↓                                                │
│  [评估层]                                                │
│  IC / RankIC / ICIR / 回测收益 / Sharpe / MaxDD           │
│          ↓                                                │
│  [输出层]                                                │
│  精选因子组合 + 动态权重 + 可解释性报告                    │
│                                                          │
└──────────────────────────────────────────────────────────┘

各层职责说明

1.3 数学形式化

公式 1:因子图的消息传递(以 RGCN 为例)

hv(l+1)=σ(rRuNr(v)1cv,rWr(l)hu(l)+W0(l)hv(l))h_v^{(l+1)} = \sigma\left( \sum_{r \in \mathcal{R}} \sum_{u \in \mathcal{N}_r(v)} \frac{1}{c_{v,r}} W_r^{(l)} h_u^{(l)} + W_0^{(l)} h_v^{(l)} \right)

其中 hv(l)h_v^{(l)} 是节点 vv(表示一个因子或股票)在第 ll 层的隐状态,R\mathcal{R} 是关系类型集合(如同行业、同风格、因果关系),Nr(v)\mathcal{N}_r(v) 是关系 rr 下的邻居集合。该公式描述了因子如何在关系图中聚合邻域信息。这是 AlphaSAGE 中 RGCN 编码器的核心机制。

公式 2:超图因子分解模型(FactorGCL)

rt=βtpriorft先验因子暴露+βthiddengt隐因子暴露+ϵt个股残差r_t = \underbrace{\beta_t^{\text{prior}} f_t}_{\text{先验因子暴露}} + \underbrace{\beta_t^{\text{hidden}} g_t}_{\text{隐因子暴露}} + \underbrace{\epsilon_t}_{\text{个股残差}}

其中 rtr_t 为 t 时刻的股票收益率向量,ftf_t 为人类设计的先验因子,gtg_t 为超图卷积网络挖掘的隐因子,βt\beta_t 为因子载荷,ϵt\epsilon_t 为个股特异性的残差收益。该公式将收益率分解为三个层次,对应"行业→风格→个股"的投资逻辑。

公式 3:信息相关系数(IC)与 ICIR

IC=i=1N(αiαˉ)(rirˉ)i=1N(αiαˉ)2i=1N(rirˉ)2\text{IC} = \frac{\sum_{i=1}^N (\alpha_i - \bar{\alpha})(r_i - \bar{r})}{\sqrt{\sum_{i=1}^N (\alpha_i - \bar{\alpha})^2 \sum_{i=1}^N (r_i - \bar{r})^2}} ICIR=mean(ICt)std(ICt)\text{ICIR} = \frac{\text{mean}(\text{IC}_t)}{\text{std}(\text{IC}_t)}

IC 衡量因子预测值与实际收益的截面相关性,ICIR 则衡量 IC 的时间序列稳定性。这是所有因子挖掘方法的核心评价指标。AlphaPROBE、FactorGCL、GRU-PFG 等均以此为主要优化目标。

公式 4:GFlowNet 的轨迹平衡损失(AlphaSAGE)

LTB(τ)=(logZθt=1nPF(stst1;θ)R(τ)t=0n1PB(stst+1;θ))2\mathcal{L}_{\text{TB}}(\tau) = \left( \log \frac{Z_\theta \prod_{t=1}^{n} P_F(s_t | s_{t-1}; \theta)}{R(\tau) \prod_{t=0}^{n-1} P_B(s_t | s_{t+1}; \theta)} \right)^2

其中 τ\tau 表示一个因子生成轨迹,PFP_F 为前向策略(逐步构建因子表达式),PBP_B 为后向策略,R(τ)R(\tau) 为因子 τ\tau 的奖励(如 IC² 惩罚缺失率),ZθZ_\theta 为配分函数。该损失确保 GFlowNet 采样出的因子分布与奖励成正比,从而实现多样性因子发现

公式 5:DAG 优化中的贝叶斯因子检索(AlphaPROBE)

P(select viG)=exp(γs(vi)+(1γ)d(vi))vjVexp(γs(vj)+(1γ)d(vj))P(\text{select } v_i | \mathcal{G}) = \frac{\exp(\gamma \cdot s(v_i) + (1-\gamma) \cdot d(v_i))}{\sum_{v_j \in \mathcal{V}} \exp(\gamma \cdot s(v_j) + (1-\gamma) \cdot d(v_j))} d(vi)=αdegin(vi)+βdegout(vi)+ηnovelty(vi)d(v_i) = \alpha \cdot \text{deg}_{\text{in}}(v_i) + \beta \cdot \text{deg}_{\text{out}}(v_i) + \eta \cdot \text{novelty}(v_i)

其中 s(vi)s(v_i) 为因子 viv_i 的预测性能评分,d(vi)d(v_i) 为 DAG 拓扑中心性得分,γ\gamma 控制探索-利用平衡。该公式将因子选择建模为 DAG 上的带偏随机游走。

1.4 实现逻辑(Python 伪代码)

import torch
import torch.nn as nn
import dgl  # Deep Graph Library

class GraphFactorMiningSystem(nn.Module):
    """
    基于图网络的因子自动挖掘系统核心抽象
    体现"图构建→图编码→因子生成→评估"的完整闭环
    """
    def __init__(self, config):
        super().__init__()
        # 组件A: 图构建器 — 根据金融先验构建多关系图
        self.graph_builder = FactorRelationGraphBuilder(
            relation_types=['industry', 'style', 'correlation', 'causal'],
            top_k_neighbors=config.top_k
        )
        # 组件B: 关系图编码器 — 使用RGCN提取图拓扑特征
        self.graph_encoder = RelationalGraphConvEncoder(
            num_relations=4,
            hidden_dim=config.hidden_dim,
            num_layers=config.num_layers
        )
        # 组件C: 因子生成器 — 基于图拓扑生成新因子表达式
        self.factor_generator = DAGawareFactorGenerator(
            operator_set=['add', 'sub', 'mul', 'div', 'rank', 'zscore'],
            max_expression_length=config.max_length
        )
        # 组件D: 因子评估器 — 计算IC/ICIR等指标
        self.factor_evaluator = FactorEvaluator(
            metrics=['IC', 'RankIC', 'ICIR', 'Sharpe']
        )

    def forward(self, market_data, prior_factors):
        """
        一次完整的图因子挖掘迭代
        Args:
            market_data: 市场行情数据 [T, N, F]
            prior_factors: 先验因子库 [T, N, K]
        Returns:
            新发现的因子及其性能评估
        """
        # Step 1: 构建动态股票-股票/因子-因子关系图
        graph = self.graph_builder.build(
            market_data=market_data,
            factor_values=prior_factors
        )
        # Step 2: 使用RGCN编码图拓扑 → 获取节点嵌入
        node_embeddings = self.graph_encoder(
            graph=graph,
            node_features=torch.cat([market_data[-1], prior_factors[-1]], dim=-1)
        )
        # Step 3: 基于图拓扑生成候选因子表达式
        candidate_formulas = self.factor_generator.generate(
            embeddings=node_embeddings,
            n_candidates=100,
            diversity_penalty=0.3
        )
        # Step 4: 计算候选因子并评估
        factor_values = self._compute_factors(market_data, candidate_formulas)
        evaluation_results = self.factor_evaluator.evaluate(
            factor_values=factor_values,
            forward_returns=market_data['future_return']
        )
        # Step 5: 更新DAG — 将表现优良的因子及其关系加入图中
        self.graph_builder.update_dag(
            new_factors=candidate_formulas,
            scores=evaluation_results['IC']
        )
        return evaluation_results

1.5 性能指标

指标 典型目标值 测量方式 说明
RankIC > 0.10 截面Spearman相关系数 因子预测排序与实际收益排序的相关性;FactorGCL达16.14%
ICIR > 0.50 IC时间序列均值/标准差 因子预测稳定性;>1.0为优秀
年化超额收益 > 15% 多空组合/对冲基准 在CSI300上最新SOTA约28.89%(GATs_ts)至32.65%(FactorGCL)
Sharpe比率 > 2.0 年化收益/年化波动 风险调整后收益;最新方法可达5.23(风险注意力模型)
因子多样性 Top-10因子相关性<0.5 因子间Pearson相关系数矩阵 衡量因子池的多样性,防止同质化
因子新奇度 ≥ 30%新表达式 与已知因子库的结构距离 使用树编辑距离衡量生成因子与已知因子的差异度
搜索效率 ≤ 1小时/轮 单轮迭代时间(1000候选) 从数万候选空间定位有效因子的速度
计算稳定性 零运行时崩溃 AST沙箱执行失败率 Hubble框架已实现100%稳定性

1.6 扩展性与安全性

水平扩展

垂直扩展

安全考量


第二部分:行业情报

2.1 GitHub 热门项目

项目 Stars 核心功能 技术栈 最后更新 链接
microsoft/qlib ~40,900 AI量化平台,内置 GATs_ts 图神经网络模型,支持全流程因子挖掘 Python/PyTorch 2026-05 活跃 GitHub
AlphaPROBE ~73 DAG 结构化因子进化框架,贝叶斯检索 + DAG感知因子生成 Python/PDM/Qlib 2026-02 GitHub
alpha-gfn (AlphaSAGE) ~112 GFlowNet 驱动的因子生成框架,RGCN 结构感知编码器 Python/PyTorch 2025-09 GitHub
PRISM-VQ ~1 向量量化离散因子模型,MoE 动态因子载荷生成 Python/PyTorch/Qlib 2026-05 GitHub
worldquant-miner ~510 WorldQuant 自动化因子挖掘,LLM+GPU加速 Python/Docker/CUDA 2026-01 GitHub
FinMamba Mamba架构+动态图学习的股票预测模型 Python/PyTorch 2025-02 GitHub
NGAT 节点级图注意力网络,长周期股票预测 Python/PyTorch 2025 GitHub
MS-HGFN 多尺度层级图卷积网络 + 门控融合 Python/PyTorch 2026 GitHub
WQ-Brainn WorldQuant Brain API 封装,自动化因子提交 Python 2025-08 GitHub

: Stars 数据截至 2026-05-16,小型项目可能未完全统计。

2.2 关键论文

经典高影响力论文(奠基性工作,~40%)

论文 作者/机构 年份 会议/期刊 核心贡献 影响力 链接
HIST: Graph-based Framework for Stock Trend Forecasting Xu et al. 2021 WWW 首次提出级联残差概念注意力的股票图模型,影响后续多篇工作 高被引
Factor Investing with Deep Multi-Factor Model Wei, Dai, Lin 2022 NeurIPS Workshop 图注意力机制估计深度因子,因子注意力模块实现可解释性 Workshop
Alpha-GPT: Human-AI Interactive Alpha Mining Wang et al. 2023/2025 EMNLP 2025 LLM驱动因子挖掘,WorldQuant全球第10名(41,000+团队) 标杆工作 ACL
GRU-PFG: Extract Inter-Stock Correlation from Stock Factors with GNN Zhuang et al. 2024 arXiv 纯因子数据+GNN提取股票相关性,IC 0.134 超越 HIST 的 0.131 基金属方法标杆 arXiv

最新 SOTA 论文(前沿进展,~60%)

论文 作者/机构 年份 会议/期刊 核心贡献 影响力 链接
FactorGCL: Hypergraph-Based Factor Model Duan, Wang, Li / 清华 2025 AAAI 2025 超图CNN+残差对比学习,年化超额32.65%,IC 12.46% 当前SOTA AAAI
AlphaPROBE: Principled Retrieval + On-graph Evolution Guo et al. / 北大/正仁量化 2026 arXiv DAG因子导航,贝叶斯检索+图感知生成,8个基线最优 最新框架 arXiv
AlphaSAGE: Structure-Aware Alpha Mining via GFlowNets Chen et al. 2025/2026 ICLR 2026 RGCN+GFlowNet,多样性因子发现,密集奖励设计 ICLR 2026 ICLR
QuantaAlpha: Evolutionary LLM-Driven Alpha Mining Han et al. 2026 arXiv 轨迹级变异交叉+语义一致性,CSI300 IC 0.1501 IC创新高 arXiv
Hubble: LLM-Driven Agentic Framework Shi et al. / UBC 2026 arXiv AST沙箱100%稳定,双通道RAG,IR>1.0 安全合规标杆 arXiv
FactorEngine: Program-level Knowledge-Infused Mining 2026 arXiv 图灵完备代码因子,宏观-微观协同进化,IC提升58% 新范式 arXiv
AlphaLogics: Market Logic-Driven Multi-Agent System Weng et al. 2026 arXiv 市场逻辑反向提取,CSI500超额16.72% 可解释性突破 arXiv
Navigating the Alpha Jungle: LLM+MCTS Shi, Duan, Li / 清华 2026 AAAI 2026 LLM引导MCTS探索因子空间,频繁子树避免同质化 AAAI 2026 AAAI
PRISM-VQ: Vector-Quantized Discrete Latent Factors Kim, Song 2026 IJCAI-ECAI 2026 VQ信息瓶颈+MoE因子载荷,CSI300/S&P500均最优 IJCAI 2026 arXiv
AlphaForge: Generate & Combine Formulaic Factors Shi et al. 2025 AAAI 2025 生成-预测网络+动态权重组合,超越GP和RL基线 AAAI 2025 AAAI
QuantFactor REINFORCE Zhao et al. 2024/2025 IEEE TSP 2025 方差有界REINFORCE,IC提升3.83% RL方法突破 arXiv
MaGNet: Mamba Dual-Hypergraph Network 2025 arXiv 双超图(时序因果+全局概率)+Mamba+MoE,六指数SOTA 架构创新 arXiv

2.3 系统化技术博客

博客标题 作者/来源 语言 类型 核心内容 日期 链接
图神经网络选股与Qlib实践 华泰金工(林晓明团队) 中文 研究报告 GATs_ts模型详解+回测实践,超额28.89% 2021-02 华泰研报
基于图卷积的动态市场趋势多因子推理模型 CSDN 中文 教程 GCN原理+多因子推理+Python代码实现 2025-12 CSDN
GRU-PFG: 利用GNN从股票因子中提取相关性 CSDN 中文 论文解读 MCI-GRU/GAT架构详解和实验分析 2025-01 CSDN
基于风险注意力的因子挖掘模型 东方证券/BigQuant 中文 研究报告 GAT+Transformer融合,RankIC 0.106,Sharpe 5.23 2024-05 BigQuant
Qlib: AI量化投资平台研究报告 研究报告 中文 平台介绍 微软Qlib全流程分析,GATs_ts模型详解 2025 研究报告
FactorGCL论文解读 ChatPaper 中文 论文解读 超图因子模型+残差对比学习详细解读 2025 ChatPaper
DFQ~FactorGCL: 基于超图CNN的股票收益预测 东方证券 中文 研究报告 FactorGCL在A股的实证分析和组合构建 2025-07 东方研报
基于遗传规划的因子挖掘 PandaAI 中文 教程 GP因子挖掘原理+实现+与深度学习对比 2025 PandaAI
Alpha Mining via LLM-Driven Code Evolution (CogAlpha) 论文解读 英文 论文解读 7级智能体层次结构的认知因子挖掘 2025-11 EmergentMind
Survey of GP and LLMs Hemberg et al. / MIT 英文 综述 GP+LLM结合趋势,因子挖掘是重要应用场景 2024/2025 GPTP XXI

2.4 技术演进时间线

2014 ── WorldQuant 发布 101 Alpha 因子公式集,奠定公式化因子挖掘基础
2017 ── 图注意力网络(GAT)提出,成为后续股票关系建模的核心架构
2020 ── Microsoft Qlib 开源,内置 GATs_ts 图神经网络模型
2021 ── HIST 模型提出级联残差概念注意力,影响后续因子图模型方向
2022 ── 深度多因子模型(NeurIPS Workshop)首次在图注意框架中实现可解释因子提取
2023 ── Alpha-GPT 将LLM引入因子挖掘,开创Human-AI交互范式
2024 ── GRU-PFG 证明纯因子数据+GNN可超越HIST(IC 0.134 vs 0.131)
2025 ─┬─ AAAI 2025: FactorGCL(超图+对比学习)和AlphaForge(生成-预测网络)同期发表
      ├─ AlphaSAGE(RGCN+GFlowNet)被ICLR 2026接收
      ├─ QuantFactor REINFORCE 被IEEE TSP接收,RL方法理论突破
      └─ LLM驱动因子挖掘爆发:CogAlpha、AlphaLogics、FactorEngine等集中涌现
2026 ─┬─ AAAI 2026: "Navigating the Alpha Jungle"(LLM+MCTS)
      ├─ IJCAI-ECAI 2026: PRISM-VQ(向量量化离散因子)
      ├─ ICLR 2026: AlphaSAGE海报展示
      ├─ AlphaPROBE (DAG结构化因子进化) 开源
      ├─ Hubble (100%安全合规的LLM因子发现框架) 发布
      └─ 当前状态:图网络+LLM+RL三大范式加速融合,因子挖掘进入"结构感知+生成式探索"时代

第三部分:方案对比

3.1 历史发展时间线

2014-2018 ── 遗传规划(GP)时代:WorldQuant式因子搜索,符号表达式随机变异杂交
                局限:搜索效率低,缺乏对因子间关系的利用
2019-2021 ── 图神经网络引入:GATs_ts(Qlib)、HIST等模型首次将股票关系建模为图
                突破:从孤立因子搜索转向关系拓扑感知
2022-2023 ── 强化学习+图:将因子生成建模为序列决策过程(PPO/A2C)
                局限:PPO高方差,探索效率低
2024-2025 ── 多元化爆发:超图(FactorGCL)、GFlowNet(AlphaSAGE)、LLM+GP(CogAlpha)
                特点:从单一方法到混合架构,从个体搜索到生态建模
2026 ────── 融合时代:DAG因子进化(AlphaPROBE)、MCTS+LLM(Alpha Jungle)、
                安全合规(Hubble)、离散因子(PRISM-VQ)
                当前状态:图结构关系建模已是标配,竞争焦点转向"如何高效探索+保持多样性+确保合规"

3.2 六种方案横向对比

方案概述

方案 代表工作 核心思想
A: 遗传规划(GP) WorldQuant 101, Warm-Start GP 符号表达式随机变异杂交,适应度驱动进化
B: GNN股票预测 GATs_ts(Qlib), GRU-PFG 用GNN学习股票间关系直接预测收益
C: 超图因子模型 FactorGCL, MaGNet 超图捕获因子-股票高阶非线性关系,级联残差分解
D: DAG因子进化 AlphaPROBE 因子进化路径建模为DAG,贝叶斯检索+拓扑感知生成
E: GFlowNet因子生成 AlphaSAGE, alpha-gfn GFlowNet采样与奖励成正比的多样因子分布
F: LLM+图+RL混合 QuantaAlpha, Hubble, CogAlpha LLM驱动搜索,图网络编码结构,RL/MCTS探索

六方案优缺点详细对比

方案 优点(3+) 缺点(3+) 适用场景 成本量级
A: 遗传规划 ①可解释性强(符号表达式) ②实现简单,无GPU需求 ③历史悠久,社区成熟(WorldQuant已验证) ①搜索空间巨大,有效因子稀疏(≈0.1%) ②无法利用因子间关系 ③容易陷入局部最优,多样性差 ④因子长度受限,表达能力有限 小规模研究、个人量化、WorldQuant Brain竞赛 00-100/月 (CPU即可)
B: GNN股票预测 ①端到端学习,无人工因子工程 ②天然建模股票间相关性 ③Qlib等平台开箱即用 ①预测的是收益而非可解释因子 ②难以提供明确交易逻辑 ③对极端行情(out-of-distribution)泛化差 ④图结构定义依赖先验知识 机构量化选股、中频交易信号生成 500500-2000/月 (单GPU)
C: 超图因子模型 ①捕获高阶非线性关系(超越成对关系) ②级联残差提供金融可解释性 ③IC/SOTA最优(12.46%) ④可与人类先验因子无缝融合 ①超图构建复杂,计算开销大 ②超边数量需谨慎调节 ③需要大量训练数据(5年+) ④实现门槛高,无成熟开源工具 中大规模机构、高频/中频截面选股 20002000-5000/月 (多GPU)
D: DAG因子进化 ①因子关系显式编码(进化路径可追溯) ②贝叶斯检索平衡探索-利用 ③非冗余因子生成 ④最新框架(2026),性能领先 ①DAG规模随迭代线性增长 ②初始种子因子依赖先验库 ③评估周期长(每轮需全市场回测) ④仅1个开源实现,社区小 因子库维护、因子组合优化、机构持续挖掘 10001000-3000/月
E: GFlowNet因子生成 ①采样分布与奖励严格成正比 ②天然多样性与探索能力 ③避免过拟合单一最优因子 ④ICLR 2026接收,理论扎实 ①训练收敛慢(需大量轨迹采样) ②边际奖励设计困难 ③计算成本高于PPO/GP ④无成熟金融领域实现 需要多样性因子池的场景、组合因子构建 20002000-4000/月
F: LLM+图+RL混合 ①最强预测性能(QuantaAlpha IC 0.1501) ②可处理图灵完备的因子程序 ③跨市场迁移能力强 ④安全合规(AST沙箱) ①API成本高(GPT-5.2级别) ②端到端延迟大(>10分钟/轮) ③LLM幻觉引入虚假因子 ④系统复杂度极高(多智能体协调) ⑤可重复性挑战 顶级量化机构、跨市场策略研发、全自动因子工厂 50005000-50000/月 (含LLM API)

3.3 技术细节对比

维度 A: 遗传规划 B: GNN预测 C: 超图因子 D: DAG进化 E: GFlowNet F: LLM+图+RL
性能(IC) 0.05-0.08 0.10-0.13 0.12-0.16 0.10-0.14 0.09-0.13 0.13-0.15
因子可解释性 ★★★★★ ★★ ★★★★ ★★★★ ★★★ ★★★
多样性 ★★ ★★★ ★★★★ ★★★★★ ★★★★
实现难度 ★(低) ★★★ ★★★★ ★★★★ ★★★★ ★★★★★
计算成本 $ $$ $$$$ $$$ $$$$ $$$$$
生态成熟度 ★★★★★ ★★★★ ★★ ★★ ★★★
最新成果年份 2024 2024 2025(AAAI) 2026 2026(ICLR) 2026(AAAI)
可迁移性 ★★★★ ★★★ ★★★ ★★★★ ★★★ ★★★★★
安全合规 ★★★★★ ★★★ ★★★★ ★★★★ ★★★ ★★★★★(沙箱)

3.4 选型建议

场景 推荐方案 核心理由 预估月成本
个人研究者/小型团队探索 A: 遗传规划 或 B: GNN预测(Qlib) 零门槛上手,GPU可选,社区资源丰富;Qlib的GATs_ts模型可跑通全流程 00-500
中型私募/量化研究(20-50亿规模) C: 超图因子(FactorGCL) + D: DAG进化(AlphaPROBE) 超图提供SOTA预测精度,DAG进化提供因子库维护机制,两者互补 30003000-8000
大型量化机构/自营(50亿+规模) F: LLM+图+RL混合(QuantaAlpha/Hubble+CogAlpha) 最大性能潜力,跨市场迁移,安全合规框架保障生产环境稳定运行;需组建5-15人AI量化团队 1500015000-50000+
WorldQuant Brain竞赛 A: 遗传规划 + LLM辅助(worldquant-miner) WQ平台限制表达式格式,GP直接适用;LLM辅助生成多样化初始种子 100100-1000
因子库质量维护(已有因子库的持续优化) D: DAG进化(AlphaPROBE) DAG路径可追溯,非冗余生成,与现有因子库天然兼容 20002000-5000
高频/中频截面选股(低延迟需求) C: 超图因子简化版 或 B: GNN预测 端到端推理延迟<100ms,因子仅需计算一次;超图可离线训练在线推理 50005000-10000
跨市场全球策略(CIS/US/EU) F: LLM+图+RL(QuantaAlpha) 已验证CSI300→S&P500迁移,超额137%;LLM理解多市场规则差异 2000020000-50000

第四部分:精华整合

4.1 The One 公式

图因子挖掘=图神经网络结构感知编码+生成式探索多样性因子发现金融噪声低信噪比 + Alpha衰减\text{图因子挖掘} = \underbrace{\text{图神经网络}}_{\text{结构感知编码}} + \underbrace{\text{生成式探索}}_{\text{多样性因子发现}} - \underbrace{\text{金融噪声}}_{\text{低信噪比 + Alpha衰减}}

解读:该领域的本质是"用图结构对抗噪声,用生成多样性覆盖衰减"。GNN 提供拓扑正则化,让模型在噪声中捕捉真实信号;生成式探索(GFlowNet/DAG/LLM)确保因子池多样,以应对有效因子的快速衰减。二者缺一不可,而"金融噪声"则是整个领域存在的根本原因——如果金融数据信噪比高,传统统计方法就已足够。

4.2 一句话解释

"把股票和因子之间的关系画成一张大网,让网络自己从这张网中发现新的投资信号——就像通过社交网络发现谁才是真正有影响力的人一样,只不过这里发现的是能预测股价涨跌的数学公式。"

4.3 核心架构图

行情数据 + 基础因子
    │
    ▼
┌──────────────┐     ┌───────────────┐
│   图构建器    │────▶│   股票-因子图   │
│ (行业/相关/因果)│    │ (节点+边+超边)  │
└──────────────┘     └───────┬───────┘
                            │
                            ▼
                    ┌───────────────┐
                    │  GNN 编码器    │
                    │ (RGCN/HyperGCN)│
                    └───────┬───────┘
                            │
            ┌───────────────┼───────────────┐
            │               │               │
            ▼               ▼               ▼
    ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
    │ 因子生成器    │ │ 评估系统      │ │ 因子组合     │
    │(GFlowNet/DAG) │ │(IC/ICIR/Sharp)│ │(MoE动态权重) │
    └──────────────┘ └──────────────┘ └──────────────┘
            │               │               │
            └───────────────┼───────────────┘
                            │
                            ▼
                    ┌───────────────┐
                    │  精选因子池    │
                    │ (5-20个Alpha) │
                    └───────────────┘

4.4 STAR 总结

Situation(背景+痛点)

量化投资行业面临"因子荒漠化"困境——传统手工定义的 Alpha 因子(动量、价值、质量等)IC 持续衰减,全球主要市场的因子溢价日益拥挤。A 股市场尤其严峻:WorldQuant 101 因子库中超过 60% 的因子在近三年 IC 显著下降。与此同时,金融数据维度爆炸式增长(Tick 级行情、舆情、供应链数据),传统线性模型和多因子回归无法有效利用高维、非线性、结构化的数据关系。行业迫切需要一种能自动、高效、多样化地发现新因子的方法体系。

Task(核心问题)

核心问题在于:如何在极低信噪比(<0.05)的金融数据中,从巨大的候选因子空间(理论上有 10^30+ 种可能的数学表达式组合)中,高效定位少量真正具有预测能力(IC > 0.05)、经济可解释、且与其他已知因子低相关的 Alpha 信号?约束条件包括:①避免过拟合(金融数据的时间依赖性校验);②实现因子多样性(防止同质化衰减);③保证计算效率(数万候选的快速筛选);④确保合规可解释(监管要求)。

Action(主流方案)

技术演进经历了四个关键阶段:第一阶段(2014-2019)以遗传规划(GP)为主,WorldQuant 式符号搜索,但搜索效率和多样性受限;第二阶段(2020-2023)图神经网络引入量化选股,Qlib/GATs_ts/HIST 等模型将股票关系建模为图结构,实现"从孤立搜索到拓扑感知"的跃升,IC 从 0.05-0.08 提升至 0.10-0.13;第三阶段(2024-2025)超图卷积(FactorGCL,IC 12.46%)、GFlowNet(AlphaSAGE,ICLR 2026)、生成-预测网络(AlphaForge,AAAI 2025)等多条路线并行突破;第四阶段(2026)进入加速融合期——DAG 因子进化(AlphaPROBE)、LLM+MCTS(AAAI 2026)、向量量化离散因子(PRISM-VQ,IJCAI 2026)等方法各展所长,图结构建模已从"可选项"变为"必选项"。

Result(效果+建议)

当前图网络因子挖掘的 IC 上限已达 0.12-0.15,年化超额收益超 30%,显著超越传统 GP(IC 0.05-0.08)和简单 MLP/GBDT(IC 0.08-0.10)。但局限仍然明显:①计算成本高(多 GPU + LLM API 可达数万美元/月);②因子衰减周期短(优越因子 3-6 个月需迭代);③跨市场迁移仍存在"市场风格漂移"挑战。操作建议:小型团队优先使用 Qlib GATs_ts + AlphaPROBE 组合,兼顾性能和成本;大型机构应布局 LLM + 图 + RL 混合架构(QuantaAlpha + Hubble),建立全自动因子工厂,配合 AST 沙箱确保合规安全。

4.5 理解确认问题

问题:假设你使用 DAG 进化框架(如 AlphaPROBE)挖到了一个 IC 高达 0.18 的因子,但在样本外仅有 IC 0.02。请分析最可能的三个原因,并说明你会在 DAG 的哪一层/环节进行修复。

参考答案

  1. 过拟合(最可能):DAG 的贝叶斯检索器过度利用了样本内的噪声模式。修复方向:在贝叶斯因子检索公式中增加图拓扑正则化项,降低高中心性但低样本外表现的因子的权重。
  2. 因子同质化:生成的"新"因子实质是 DAG 中多个高绩效因子的线性组合,样本外多重共线性导致 IC 崩溃。修复方向:在 DAG 感知因子生成器中增强多样性惩罚(如树编辑距离约束),或引入 GFlowNet 式的奖励比例采样替代贪心选择。
  3. 数据泄露:图构建时无意识地混入了未来信息(如使用未来收益计算股票相关性矩阵)。修复方向:在图构建层严格执行时间对齐——在每个时间切面 t,只使用 t-1 及之前的数据构建图结构,并使用时序交叉验证而非随机交叉验证进行评估。

附录:核心参考文献

  1. Guo et al., "AlphaPROBE: Alpha Mining via Principled Retrieval and On-graph Biased Evolution", arXiv:2602.11917, 2026.
  2. Chen et al., "AlphaSAGE: Structure-Aware Alpha Mining via GFlowNets for Robust Exploration", ICLR 2026.
  3. Duan, Wang & Li, "FactorGCL: A Hypergraph-Based Factor Model with Temporal Residual Contrastive Learning", AAAI 2025.
  4. Han et al., "QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining", arXiv:2602.07085, 2026.
  5. Shi et al., "Hubble: An LLM-Driven Agentic Framework for Safe and Diverse Alpha Factor Discovery", arXiv:2604.09601, 2026.
  6. Shi, Duan & Li, "Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Alpha Factor Mining", AAAI 2026.
  7. Kim & Song, "PRISM-VQ: Vector-Quantized Discrete Latent Factors Meet Financial Priors", IJCAI-ECAI 2026.
  8. Zhuang et al., "GRU-PFG: Extract Inter-Stock Correlation from Stock Factors with GNN", arXiv:2411.18997, 2024.
  9. Shi et al., "AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors", AAAI 2025.
  10. Zhao et al., "QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE", IEEE TSP, 2025.

声明:本报告基于 2026-05-16 可公开获取的信息编制。GitHub Stars 数据为动态值,论文引用信息以最新版本为准。选型建议仅供参考,实际部署需结合机构具体情况。

评论

评论加载中...