基于图网络的量化因子自动挖掘方法 — 深度技术调研报告
调研日期: 2026-05-16 所属领域: quant + agent 报告版本: v1.0
目录
第一部分:概念剖析
1.1 定义澄清
通行定义
基于图网络的量化因子自动挖掘是指将股票、因子等金融实体建模为图结构(节点表示股票或因子,边表示它们之间的相关性、因果关系或进化关系),利用图神经网络(GNN)、超图卷积网络(HyperGCN)等深度学习模型,从市场数据中自动发现具有预测能力的 Alpha 因子的方法论体系。其核心目标是在高噪声、低信噪比的金融数据中,通过结构化的关系建模提升因子发现的效率和鲁棒性。
常见误解
| # | 误解 | 澄清 |
|---|---|---|
| 1 | "图网络因子挖掘 = 用 GCN 预测股票涨跌" | GCN 预测涨跌只是应用之一,图挖掘的核心在于因子间关系建模和因子空间的拓扑结构发现,而非仅做价格预测 |
| 2 | "图结构可以完全替代人工因子库" | 图方法擅长挖掘非线性交互和高阶关系,但经典因子(动量、价值等)提供的金融先验仍然不可或缺;最佳实践是"先验因子 + 图挖掘隐因子"的混合范式 |
| 3 | "因子越多,图模型效果越好" | 金融数据信噪比极低,冗余因子会引入虚假相关性;图模型的拓扑正则化虽能缓解过拟合,但质量控制(稀疏性约束、多样性惩罚)仍是必要组件 |
边界辨析
与传统遗传规划(GP)因子挖掘的核心区别:GP 在符号表达式空间中进行随机搜索和杂交变异,将每个因子视为独立的数学表达式;而图网络方法将因子置于关系拓扑中,利用消息传递机制让因子之间"互相学习"——因子 A 的进化路径可以指导因子 B 的生成。与LLM 因子挖掘的区别:LLM 依赖大模型的语义理解和代码生成能力,而图网络方法依赖结构化关系推理和拓扑优化,二者正在走向融合(如 AlphaSAGE 中 RGCN 作为 LLM 的编码器)。
1.2 核心架构
┌──────────────────────────────────────────────────────────┐
│ 基于图网络的量化因子挖掘系统架构 │
├──────────────────────────────────────────────────────────┤
│ │
│ [数据层] │
│ 原始行情 + 基本面 + 另类数据 │
│ ↓ │
│ [因子计算层] │
│ 基础因子池(Alpha158/360/101) — 作为图节点初始特征 │
│ ↓ │
│ [图构建层] [辅助组件] │
│ ┌─────────────────┐ ┌──────────────────┐ │
│ │ 股票-股票关系图 │ │ 贝叶斯因子检索器 │ │
│ │ 因子-因子进化图 │ │ (AlphaPROBE) │ │
│ │ 股票-因子超图 │ │ 多样性惩罚机制 │ │
│ │ 时序因果图 │ │ AST执行沙箱 │ │
│ └───────┬─────────┘ └──────────────────┘ │
│ ↓ │
│ [图神经网络处理层] │
│ ┌──────────────────────────────────────────────┐ │
│ │ RGCN / HyperGCN / GAT / GFlowNet 等 │ │
│ │ 消息传递 → 节点更新 → 拓扑感知编码 │ │
│ └──────────────────────┬───────────────────────┘ │
│ ↓ │
│ [因子生成/优化层] │
│ ┌──────────────────────────────────────────────┐ │
│ │ DAG感知因子生成器 / VQ离散因子 / MCTS搜索 │ │
│ │ 从图拓扑中生成新因子表达式 │ │
│ └──────────────────────┬───────────────────────┘ │
│ ↓ │
│ [评估层] │
│ IC / RankIC / ICIR / 回测收益 / Sharpe / MaxDD │
│ ↓ │
│ [输出层] │
│ 精选因子组合 + 动态权重 + 可解释性报告 │
│ │
└──────────────────────────────────────────────────────────┘
各层职责说明:
- 数据层:采集和处理行情、基本面、另类数据,为因子计算提供原始输入
- 因子计算层:计算基础因子库(如 Alpha158 的 158 个特征),作为图网络的初始节点特征
- 图构建层:根据金融先验(行业分类、相关性、时序因果等)构建多类型图结构
- 图神经网络处理层:执行消息传递和节点状态更新,提取拓扑结构中的高阶模式
- 因子生成/优化层:基于图拓扑信息生成新的因子表达式或调整因子载荷
- 评估层:使用多种量化指标对生成因子进行筛选和质量控制
1.3 数学形式化
公式 1:因子图的消息传递(以 RGCN 为例)
其中 是节点 (表示一个因子或股票)在第 层的隐状态, 是关系类型集合(如同行业、同风格、因果关系), 是关系 下的邻居集合。该公式描述了因子如何在关系图中聚合邻域信息。这是 AlphaSAGE 中 RGCN 编码器的核心机制。
公式 2:超图因子分解模型(FactorGCL)
其中 为 t 时刻的股票收益率向量, 为人类设计的先验因子, 为超图卷积网络挖掘的隐因子, 为因子载荷, 为个股特异性的残差收益。该公式将收益率分解为三个层次,对应"行业→风格→个股"的投资逻辑。
公式 3:信息相关系数(IC)与 ICIR
IC 衡量因子预测值与实际收益的截面相关性,ICIR 则衡量 IC 的时间序列稳定性。这是所有因子挖掘方法的核心评价指标。AlphaPROBE、FactorGCL、GRU-PFG 等均以此为主要优化目标。
公式 4:GFlowNet 的轨迹平衡损失(AlphaSAGE)
其中 表示一个因子生成轨迹, 为前向策略(逐步构建因子表达式), 为后向策略, 为因子 的奖励(如 IC² 惩罚缺失率), 为配分函数。该损失确保 GFlowNet 采样出的因子分布与奖励成正比,从而实现多样性因子发现。
公式 5:DAG 优化中的贝叶斯因子检索(AlphaPROBE)
其中 为因子 的预测性能评分, 为 DAG 拓扑中心性得分, 控制探索-利用平衡。该公式将因子选择建模为 DAG 上的带偏随机游走。
1.4 实现逻辑(Python 伪代码)
import torch
import torch.nn as nn
import dgl # Deep Graph Library
class GraphFactorMiningSystem(nn.Module):
"""
基于图网络的因子自动挖掘系统核心抽象
体现"图构建→图编码→因子生成→评估"的完整闭环
"""
def __init__(self, config):
super().__init__()
# 组件A: 图构建器 — 根据金融先验构建多关系图
self.graph_builder = FactorRelationGraphBuilder(
relation_types=['industry', 'style', 'correlation', 'causal'],
top_k_neighbors=config.top_k
)
# 组件B: 关系图编码器 — 使用RGCN提取图拓扑特征
self.graph_encoder = RelationalGraphConvEncoder(
num_relations=4,
hidden_dim=config.hidden_dim,
num_layers=config.num_layers
)
# 组件C: 因子生成器 — 基于图拓扑生成新因子表达式
self.factor_generator = DAGawareFactorGenerator(
operator_set=['add', 'sub', 'mul', 'div', 'rank', 'zscore'],
max_expression_length=config.max_length
)
# 组件D: 因子评估器 — 计算IC/ICIR等指标
self.factor_evaluator = FactorEvaluator(
metrics=['IC', 'RankIC', 'ICIR', 'Sharpe']
)
def forward(self, market_data, prior_factors):
"""
一次完整的图因子挖掘迭代
Args:
market_data: 市场行情数据 [T, N, F]
prior_factors: 先验因子库 [T, N, K]
Returns:
新发现的因子及其性能评估
"""
# Step 1: 构建动态股票-股票/因子-因子关系图
graph = self.graph_builder.build(
market_data=market_data,
factor_values=prior_factors
)
# Step 2: 使用RGCN编码图拓扑 → 获取节点嵌入
node_embeddings = self.graph_encoder(
graph=graph,
node_features=torch.cat([market_data[-1], prior_factors[-1]], dim=-1)
)
# Step 3: 基于图拓扑生成候选因子表达式
candidate_formulas = self.factor_generator.generate(
embeddings=node_embeddings,
n_candidates=100,
diversity_penalty=0.3
)
# Step 4: 计算候选因子并评估
factor_values = self._compute_factors(market_data, candidate_formulas)
evaluation_results = self.factor_evaluator.evaluate(
factor_values=factor_values,
forward_returns=market_data['future_return']
)
# Step 5: 更新DAG — 将表现优良的因子及其关系加入图中
self.graph_builder.update_dag(
new_factors=candidate_formulas,
scores=evaluation_results['IC']
)
return evaluation_results
1.5 性能指标
| 指标 | 典型目标值 | 测量方式 | 说明 |
|---|---|---|---|
| RankIC | > 0.10 | 截面Spearman相关系数 | 因子预测排序与实际收益排序的相关性;FactorGCL达16.14% |
| ICIR | > 0.50 | IC时间序列均值/标准差 | 因子预测稳定性;>1.0为优秀 |
| 年化超额收益 | > 15% | 多空组合/对冲基准 | 在CSI300上最新SOTA约28.89%(GATs_ts)至32.65%(FactorGCL) |
| Sharpe比率 | > 2.0 | 年化收益/年化波动 | 风险调整后收益;最新方法可达5.23(风险注意力模型) |
| 因子多样性 | Top-10因子相关性<0.5 | 因子间Pearson相关系数矩阵 | 衡量因子池的多样性,防止同质化 |
| 因子新奇度 | ≥ 30%新表达式 | 与已知因子库的结构距离 | 使用树编辑距离衡量生成因子与已知因子的差异度 |
| 搜索效率 | ≤ 1小时/轮 | 单轮迭代时间(1000候选) | 从数万候选空间定位有效因子的速度 |
| 计算稳定性 | 零运行时崩溃 | AST沙箱执行失败率 | Hubble框架已实现100%稳定性 |
1.6 扩展性与安全性
水平扩展
- GPU并行化:多个因子生成器可以在不同 GPU 上并行搜索,通过参数服务器汇总图拓扑更新
- 分布式因子评估:候选因子的 IC 计算天然可并行,使用 Ray/Dask 实现分布式评估
- 多市场协同:同一图结构可以适配不同市场(如 CSI300 → S&P500 迁移学习)
垂直扩展
- 更大图规模:RGCN 的时间复杂度为 O(|E|·d),全市场 5000+ 股票的全连接图不可行;采用 top-k 稀疏化或 Mini-batch 采样(如 GraphSAINT)
- 更深网络:GNN 的过平滑(oversmoothing)是主要瓶颈;GATs_ts 实验显示 K>1 时性能退化,需残差连接或 JK-Net
安全考量
- 过拟合风险:金融数据信噪比极低(约 0.01),图方法必须使用严格的时序交叉验证、正则化(VQ 信息瓶颈、DropEdge)
- 前瞻偏差:图构建中容易无意引入未来信息,需严格执行"在时间 t 只能使用 t 之前的边"
- 因子衰减:图挖掘的因子在公开后 IC 会快速衰减(Alpha 衰减),需持续迭代更新
- 可解释性:图网络的"黑箱"性质在合规审查中面临挑战;FactorGCL 的可解释隐因子提取和 AlphaLogics 的市场逻辑显式化是重要应对方向
第二部分:行业情报
2.1 GitHub 热门项目
| 项目 | Stars | 核心功能 | 技术栈 | 最后更新 | 链接 |
|---|---|---|---|---|---|
| microsoft/qlib | ~40,900 | AI量化平台,内置 GATs_ts 图神经网络模型,支持全流程因子挖掘 | Python/PyTorch | 2026-05 活跃 | GitHub |
| AlphaPROBE | ~73 | DAG 结构化因子进化框架,贝叶斯检索 + DAG感知因子生成 | Python/PDM/Qlib | 2026-02 | GitHub |
| alpha-gfn (AlphaSAGE) | ~112 | GFlowNet 驱动的因子生成框架,RGCN 结构感知编码器 | Python/PyTorch | 2025-09 | GitHub |
| PRISM-VQ | ~1 | 向量量化离散因子模型,MoE 动态因子载荷生成 | Python/PyTorch/Qlib | 2026-05 | GitHub |
| worldquant-miner | ~510 | WorldQuant 自动化因子挖掘,LLM+GPU加速 | Python/Docker/CUDA | 2026-01 | GitHub |
| FinMamba | — | Mamba架构+动态图学习的股票预测模型 | Python/PyTorch | 2025-02 | GitHub |
| NGAT | — | 节点级图注意力网络,长周期股票预测 | Python/PyTorch | 2025 | GitHub |
| MS-HGFN | — | 多尺度层级图卷积网络 + 门控融合 | Python/PyTorch | 2026 | GitHub |
| WQ-Brainn | — | WorldQuant Brain API 封装,自动化因子提交 | Python | 2025-08 | GitHub |
注: Stars 数据截至 2026-05-16,小型项目可能未完全统计。
2.2 关键论文
经典高影响力论文(奠基性工作,~40%)
| 论文 | 作者/机构 | 年份 | 会议/期刊 | 核心贡献 | 影响力 | 链接 |
|---|---|---|---|---|---|---|
| HIST: Graph-based Framework for Stock Trend Forecasting | Xu et al. | 2021 | WWW | 首次提出级联残差概念注意力的股票图模型,影响后续多篇工作 | 高被引 | — |
| Factor Investing with Deep Multi-Factor Model | Wei, Dai, Lin | 2022 | NeurIPS Workshop | 图注意力机制估计深度因子,因子注意力模块实现可解释性 | Workshop | — |
| Alpha-GPT: Human-AI Interactive Alpha Mining | Wang et al. | 2023/2025 | EMNLP 2025 | LLM驱动因子挖掘,WorldQuant全球第10名(41,000+团队) | 标杆工作 | ACL |
| GRU-PFG: Extract Inter-Stock Correlation from Stock Factors with GNN | Zhuang et al. | 2024 | arXiv | 纯因子数据+GNN提取股票相关性,IC 0.134 超越 HIST 的 0.131 | 基金属方法标杆 | arXiv |
最新 SOTA 论文(前沿进展,~60%)
| 论文 | 作者/机构 | 年份 | 会议/期刊 | 核心贡献 | 影响力 | 链接 |
|---|---|---|---|---|---|---|
| FactorGCL: Hypergraph-Based Factor Model | Duan, Wang, Li / 清华 | 2025 | AAAI 2025 | 超图CNN+残差对比学习,年化超额32.65%,IC 12.46% | 当前SOTA | AAAI |
| AlphaPROBE: Principled Retrieval + On-graph Evolution | Guo et al. / 北大/正仁量化 | 2026 | arXiv | DAG因子导航,贝叶斯检索+图感知生成,8个基线最优 | 最新框架 | arXiv |
| AlphaSAGE: Structure-Aware Alpha Mining via GFlowNets | Chen et al. | 2025/2026 | ICLR 2026 | RGCN+GFlowNet,多样性因子发现,密集奖励设计 | ICLR 2026 | ICLR |
| QuantaAlpha: Evolutionary LLM-Driven Alpha Mining | Han et al. | 2026 | arXiv | 轨迹级变异交叉+语义一致性,CSI300 IC 0.1501 | IC创新高 | arXiv |
| Hubble: LLM-Driven Agentic Framework | Shi et al. / UBC | 2026 | arXiv | AST沙箱100%稳定,双通道RAG,IR>1.0 | 安全合规标杆 | arXiv |
| FactorEngine: Program-level Knowledge-Infused Mining | — | 2026 | arXiv | 图灵完备代码因子,宏观-微观协同进化,IC提升58% | 新范式 | arXiv |
| AlphaLogics: Market Logic-Driven Multi-Agent System | Weng et al. | 2026 | arXiv | 市场逻辑反向提取,CSI500超额16.72% | 可解释性突破 | arXiv |
| Navigating the Alpha Jungle: LLM+MCTS | Shi, Duan, Li / 清华 | 2026 | AAAI 2026 | LLM引导MCTS探索因子空间,频繁子树避免同质化 | AAAI 2026 | AAAI |
| PRISM-VQ: Vector-Quantized Discrete Latent Factors | Kim, Song | 2026 | IJCAI-ECAI 2026 | VQ信息瓶颈+MoE因子载荷,CSI300/S&P500均最优 | IJCAI 2026 | arXiv |
| AlphaForge: Generate & Combine Formulaic Factors | Shi et al. | 2025 | AAAI 2025 | 生成-预测网络+动态权重组合,超越GP和RL基线 | AAAI 2025 | AAAI |
| QuantFactor REINFORCE | Zhao et al. | 2024/2025 | IEEE TSP 2025 | 方差有界REINFORCE,IC提升3.83% | RL方法突破 | arXiv |
| MaGNet: Mamba Dual-Hypergraph Network | — | 2025 | arXiv | 双超图(时序因果+全局概率)+Mamba+MoE,六指数SOTA | 架构创新 | arXiv |
2.3 系统化技术博客
| 博客标题 | 作者/来源 | 语言 | 类型 | 核心内容 | 日期 | 链接 |
|---|---|---|---|---|---|---|
| 图神经网络选股与Qlib实践 | 华泰金工(林晓明团队) | 中文 | 研究报告 | GATs_ts模型详解+回测实践,超额28.89% | 2021-02 | 华泰研报 |
| 基于图卷积的动态市场趋势多因子推理模型 | CSDN | 中文 | 教程 | GCN原理+多因子推理+Python代码实现 | 2025-12 | CSDN |
| GRU-PFG: 利用GNN从股票因子中提取相关性 | CSDN | 中文 | 论文解读 | MCI-GRU/GAT架构详解和实验分析 | 2025-01 | CSDN |
| 基于风险注意力的因子挖掘模型 | 东方证券/BigQuant | 中文 | 研究报告 | GAT+Transformer融合,RankIC 0.106,Sharpe 5.23 | 2024-05 | BigQuant |
| Qlib: AI量化投资平台研究报告 | 研究报告 | 中文 | 平台介绍 | 微软Qlib全流程分析,GATs_ts模型详解 | 2025 | 研究报告 |
| FactorGCL论文解读 | ChatPaper | 中文 | 论文解读 | 超图因子模型+残差对比学习详细解读 | 2025 | ChatPaper |
| DFQ~FactorGCL: 基于超图CNN的股票收益预测 | 东方证券 | 中文 | 研究报告 | FactorGCL在A股的实证分析和组合构建 | 2025-07 | 东方研报 |
| 基于遗传规划的因子挖掘 | PandaAI | 中文 | 教程 | GP因子挖掘原理+实现+与深度学习对比 | 2025 | PandaAI |
| Alpha Mining via LLM-Driven Code Evolution (CogAlpha) | 论文解读 | 英文 | 论文解读 | 7级智能体层次结构的认知因子挖掘 | 2025-11 | EmergentMind |
| Survey of GP and LLMs | Hemberg et al. / MIT | 英文 | 综述 | GP+LLM结合趋势,因子挖掘是重要应用场景 | 2024/2025 | GPTP XXI |
2.4 技术演进时间线
2014 ── WorldQuant 发布 101 Alpha 因子公式集,奠定公式化因子挖掘基础
2017 ── 图注意力网络(GAT)提出,成为后续股票关系建模的核心架构
2020 ── Microsoft Qlib 开源,内置 GATs_ts 图神经网络模型
2021 ── HIST 模型提出级联残差概念注意力,影响后续因子图模型方向
2022 ── 深度多因子模型(NeurIPS Workshop)首次在图注意框架中实现可解释因子提取
2023 ── Alpha-GPT 将LLM引入因子挖掘,开创Human-AI交互范式
2024 ── GRU-PFG 证明纯因子数据+GNN可超越HIST(IC 0.134 vs 0.131)
2025 ─┬─ AAAI 2025: FactorGCL(超图+对比学习)和AlphaForge(生成-预测网络)同期发表
├─ AlphaSAGE(RGCN+GFlowNet)被ICLR 2026接收
├─ QuantFactor REINFORCE 被IEEE TSP接收,RL方法理论突破
└─ LLM驱动因子挖掘爆发:CogAlpha、AlphaLogics、FactorEngine等集中涌现
2026 ─┬─ AAAI 2026: "Navigating the Alpha Jungle"(LLM+MCTS)
├─ IJCAI-ECAI 2026: PRISM-VQ(向量量化离散因子)
├─ ICLR 2026: AlphaSAGE海报展示
├─ AlphaPROBE (DAG结构化因子进化) 开源
├─ Hubble (100%安全合规的LLM因子发现框架) 发布
└─ 当前状态:图网络+LLM+RL三大范式加速融合,因子挖掘进入"结构感知+生成式探索"时代
第三部分:方案对比
3.1 历史发展时间线
2014-2018 ── 遗传规划(GP)时代:WorldQuant式因子搜索,符号表达式随机变异杂交
局限:搜索效率低,缺乏对因子间关系的利用
2019-2021 ── 图神经网络引入:GATs_ts(Qlib)、HIST等模型首次将股票关系建模为图
突破:从孤立因子搜索转向关系拓扑感知
2022-2023 ── 强化学习+图:将因子生成建模为序列决策过程(PPO/A2C)
局限:PPO高方差,探索效率低
2024-2025 ── 多元化爆发:超图(FactorGCL)、GFlowNet(AlphaSAGE)、LLM+GP(CogAlpha)
特点:从单一方法到混合架构,从个体搜索到生态建模
2026 ────── 融合时代:DAG因子进化(AlphaPROBE)、MCTS+LLM(Alpha Jungle)、
安全合规(Hubble)、离散因子(PRISM-VQ)
当前状态:图结构关系建模已是标配,竞争焦点转向"如何高效探索+保持多样性+确保合规"
3.2 六种方案横向对比
方案概述
| 方案 | 代表工作 | 核心思想 |
|---|---|---|
| A: 遗传规划(GP) | WorldQuant 101, Warm-Start GP | 符号表达式随机变异杂交,适应度驱动进化 |
| B: GNN股票预测 | GATs_ts(Qlib), GRU-PFG | 用GNN学习股票间关系直接预测收益 |
| C: 超图因子模型 | FactorGCL, MaGNet | 超图捕获因子-股票高阶非线性关系,级联残差分解 |
| D: DAG因子进化 | AlphaPROBE | 因子进化路径建模为DAG,贝叶斯检索+拓扑感知生成 |
| E: GFlowNet因子生成 | AlphaSAGE, alpha-gfn | GFlowNet采样与奖励成正比的多样因子分布 |
| F: LLM+图+RL混合 | QuantaAlpha, Hubble, CogAlpha | LLM驱动搜索,图网络编码结构,RL/MCTS探索 |
六方案优缺点详细对比
| 方案 | 优点(3+) | 缺点(3+) | 适用场景 | 成本量级 |
|---|---|---|---|---|
| A: 遗传规划 | ①可解释性强(符号表达式) ②实现简单,无GPU需求 ③历史悠久,社区成熟(WorldQuant已验证) | ①搜索空间巨大,有效因子稀疏(≈0.1%) ②无法利用因子间关系 ③容易陷入局部最优,多样性差 ④因子长度受限,表达能力有限 | 小规模研究、个人量化、WorldQuant Brain竞赛 | 100/月 (CPU即可) |
| B: GNN股票预测 | ①端到端学习,无人工因子工程 ②天然建模股票间相关性 ③Qlib等平台开箱即用 | ①预测的是收益而非可解释因子 ②难以提供明确交易逻辑 ③对极端行情(out-of-distribution)泛化差 ④图结构定义依赖先验知识 | 机构量化选股、中频交易信号生成 | 2000/月 (单GPU) |
| C: 超图因子模型 | ①捕获高阶非线性关系(超越成对关系) ②级联残差提供金融可解释性 ③IC/SOTA最优(12.46%) ④可与人类先验因子无缝融合 | ①超图构建复杂,计算开销大 ②超边数量需谨慎调节 ③需要大量训练数据(5年+) ④实现门槛高,无成熟开源工具 | 中大规模机构、高频/中频截面选股 | 5000/月 (多GPU) |
| D: DAG因子进化 | ①因子关系显式编码(进化路径可追溯) ②贝叶斯检索平衡探索-利用 ③非冗余因子生成 ④最新框架(2026),性能领先 | ①DAG规模随迭代线性增长 ②初始种子因子依赖先验库 ③评估周期长(每轮需全市场回测) ④仅1个开源实现,社区小 | 因子库维护、因子组合优化、机构持续挖掘 | 3000/月 |
| E: GFlowNet因子生成 | ①采样分布与奖励严格成正比 ②天然多样性与探索能力 ③避免过拟合单一最优因子 ④ICLR 2026接收,理论扎实 | ①训练收敛慢(需大量轨迹采样) ②边际奖励设计困难 ③计算成本高于PPO/GP ④无成熟金融领域实现 | 需要多样性因子池的场景、组合因子构建 | 4000/月 |
| F: LLM+图+RL混合 | ①最强预测性能(QuantaAlpha IC 0.1501) ②可处理图灵完备的因子程序 ③跨市场迁移能力强 ④安全合规(AST沙箱) | ①API成本高(GPT-5.2级别) ②端到端延迟大(>10分钟/轮) ③LLM幻觉引入虚假因子 ④系统复杂度极高(多智能体协调) ⑤可重复性挑战 | 顶级量化机构、跨市场策略研发、全自动因子工厂 | 50000/月 (含LLM API) |
3.3 技术细节对比
| 维度 | A: 遗传规划 | B: GNN预测 | C: 超图因子 | D: DAG进化 | E: GFlowNet | F: LLM+图+RL |
|---|---|---|---|---|---|---|
| 性能(IC) | 0.05-0.08 | 0.10-0.13 | 0.12-0.16 | 0.10-0.14 | 0.09-0.13 | 0.13-0.15 |
| 因子可解释性 | ★★★★★ | ★★ | ★★★★ | ★★★★ | ★★★ | ★★★ |
| 多样性 | ★★ | ★ | ★★★ | ★★★★ | ★★★★★ | ★★★★ |
| 实现难度 | ★(低) | ★★★ | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| 计算成本 | $ | $$ | $$$$ | $$$ | $$$$ | $$$$$ |
| 生态成熟度 | ★★★★★ | ★★★★ | ★★ | ★ | ★★ | ★★★ |
| 最新成果年份 | 2024 | 2024 | 2025(AAAI) | 2026 | 2026(ICLR) | 2026(AAAI) |
| 可迁移性 | ★★★★ | ★★★ | ★★★ | ★★★★ | ★★★ | ★★★★★ |
| 安全合规 | ★★★★★ | ★★★ | ★★★★ | ★★★★ | ★★★ | ★★★★★(沙箱) |
3.4 选型建议
| 场景 | 推荐方案 | 核心理由 | 预估月成本 |
|---|---|---|---|
| 个人研究者/小型团队探索 | A: 遗传规划 或 B: GNN预测(Qlib) | 零门槛上手,GPU可选,社区资源丰富;Qlib的GATs_ts模型可跑通全流程 | 500 |
| 中型私募/量化研究(20-50亿规模) | C: 超图因子(FactorGCL) + D: DAG进化(AlphaPROBE) | 超图提供SOTA预测精度,DAG进化提供因子库维护机制,两者互补 | 8000 |
| 大型量化机构/自营(50亿+规模) | F: LLM+图+RL混合(QuantaAlpha/Hubble+CogAlpha) | 最大性能潜力,跨市场迁移,安全合规框架保障生产环境稳定运行;需组建5-15人AI量化团队 | 50000+ |
| WorldQuant Brain竞赛 | A: 遗传规划 + LLM辅助(worldquant-miner) | WQ平台限制表达式格式,GP直接适用;LLM辅助生成多样化初始种子 | 1000 |
| 因子库质量维护(已有因子库的持续优化) | D: DAG进化(AlphaPROBE) | DAG路径可追溯,非冗余生成,与现有因子库天然兼容 | 5000 |
| 高频/中频截面选股(低延迟需求) | C: 超图因子简化版 或 B: GNN预测 | 端到端推理延迟<100ms,因子仅需计算一次;超图可离线训练在线推理 | 10000 |
| 跨市场全球策略(CIS/US/EU) | F: LLM+图+RL(QuantaAlpha) | 已验证CSI300→S&P500迁移,超额137%;LLM理解多市场规则差异 | 50000 |
第四部分:精华整合
4.1 The One 公式
解读:该领域的本质是"用图结构对抗噪声,用生成多样性覆盖衰减"。GNN 提供拓扑正则化,让模型在噪声中捕捉真实信号;生成式探索(GFlowNet/DAG/LLM)确保因子池多样,以应对有效因子的快速衰减。二者缺一不可,而"金融噪声"则是整个领域存在的根本原因——如果金融数据信噪比高,传统统计方法就已足够。
4.2 一句话解释
"把股票和因子之间的关系画成一张大网,让网络自己从这张网中发现新的投资信号——就像通过社交网络发现谁才是真正有影响力的人一样,只不过这里发现的是能预测股价涨跌的数学公式。"
4.3 核心架构图
行情数据 + 基础因子
│
▼
┌──────────────┐ ┌───────────────┐
│ 图构建器 │────▶│ 股票-因子图 │
│ (行业/相关/因果)│ │ (节点+边+超边) │
└──────────────┘ └───────┬───────┘
│
▼
┌───────────────┐
│ GNN 编码器 │
│ (RGCN/HyperGCN)│
└───────┬───────┘
│
┌───────────────┼───────────────┐
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 因子生成器 │ │ 评估系统 │ │ 因子组合 │
│(GFlowNet/DAG) │ │(IC/ICIR/Sharp)│ │(MoE动态权重) │
└──────────────┘ └──────────────┘ └──────────────┘
│ │ │
└───────────────┼───────────────┘
│
▼
┌───────────────┐
│ 精选因子池 │
│ (5-20个Alpha) │
└───────────────┘
4.4 STAR 总结
Situation(背景+痛点)
量化投资行业面临"因子荒漠化"困境——传统手工定义的 Alpha 因子(动量、价值、质量等)IC 持续衰减,全球主要市场的因子溢价日益拥挤。A 股市场尤其严峻:WorldQuant 101 因子库中超过 60% 的因子在近三年 IC 显著下降。与此同时,金融数据维度爆炸式增长(Tick 级行情、舆情、供应链数据),传统线性模型和多因子回归无法有效利用高维、非线性、结构化的数据关系。行业迫切需要一种能自动、高效、多样化地发现新因子的方法体系。
Task(核心问题)
核心问题在于:如何在极低信噪比(<0.05)的金融数据中,从巨大的候选因子空间(理论上有 10^30+ 种可能的数学表达式组合)中,高效定位少量真正具有预测能力(IC > 0.05)、经济可解释、且与其他已知因子低相关的 Alpha 信号?约束条件包括:①避免过拟合(金融数据的时间依赖性校验);②实现因子多样性(防止同质化衰减);③保证计算效率(数万候选的快速筛选);④确保合规可解释(监管要求)。
Action(主流方案)
技术演进经历了四个关键阶段:第一阶段(2014-2019)以遗传规划(GP)为主,WorldQuant 式符号搜索,但搜索效率和多样性受限;第二阶段(2020-2023)图神经网络引入量化选股,Qlib/GATs_ts/HIST 等模型将股票关系建模为图结构,实现"从孤立搜索到拓扑感知"的跃升,IC 从 0.05-0.08 提升至 0.10-0.13;第三阶段(2024-2025)超图卷积(FactorGCL,IC 12.46%)、GFlowNet(AlphaSAGE,ICLR 2026)、生成-预测网络(AlphaForge,AAAI 2025)等多条路线并行突破;第四阶段(2026)进入加速融合期——DAG 因子进化(AlphaPROBE)、LLM+MCTS(AAAI 2026)、向量量化离散因子(PRISM-VQ,IJCAI 2026)等方法各展所长,图结构建模已从"可选项"变为"必选项"。
Result(效果+建议)
当前图网络因子挖掘的 IC 上限已达 0.12-0.15,年化超额收益超 30%,显著超越传统 GP(IC 0.05-0.08)和简单 MLP/GBDT(IC 0.08-0.10)。但局限仍然明显:①计算成本高(多 GPU + LLM API 可达数万美元/月);②因子衰减周期短(优越因子 3-6 个月需迭代);③跨市场迁移仍存在"市场风格漂移"挑战。操作建议:小型团队优先使用 Qlib GATs_ts + AlphaPROBE 组合,兼顾性能和成本;大型机构应布局 LLM + 图 + RL 混合架构(QuantaAlpha + Hubble),建立全自动因子工厂,配合 AST 沙箱确保合规安全。
4.5 理解确认问题
问题:假设你使用 DAG 进化框架(如 AlphaPROBE)挖到了一个 IC 高达 0.18 的因子,但在样本外仅有 IC 0.02。请分析最可能的三个原因,并说明你会在 DAG 的哪一层/环节进行修复。
参考答案:
- 过拟合(最可能):DAG 的贝叶斯检索器过度利用了样本内的噪声模式。修复方向:在贝叶斯因子检索公式中增加图拓扑正则化项,降低高中心性但低样本外表现的因子的权重。
- 因子同质化:生成的"新"因子实质是 DAG 中多个高绩效因子的线性组合,样本外多重共线性导致 IC 崩溃。修复方向:在 DAG 感知因子生成器中增强多样性惩罚(如树编辑距离约束),或引入 GFlowNet 式的奖励比例采样替代贪心选择。
- 数据泄露:图构建时无意识地混入了未来信息(如使用未来收益计算股票相关性矩阵)。修复方向:在图构建层严格执行时间对齐——在每个时间切面 t,只使用 t-1 及之前的数据构建图结构,并使用时序交叉验证而非随机交叉验证进行评估。
附录:核心参考文献
- Guo et al., "AlphaPROBE: Alpha Mining via Principled Retrieval and On-graph Biased Evolution", arXiv:2602.11917, 2026.
- Chen et al., "AlphaSAGE: Structure-Aware Alpha Mining via GFlowNets for Robust Exploration", ICLR 2026.
- Duan, Wang & Li, "FactorGCL: A Hypergraph-Based Factor Model with Temporal Residual Contrastive Learning", AAAI 2025.
- Han et al., "QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining", arXiv:2602.07085, 2026.
- Shi et al., "Hubble: An LLM-Driven Agentic Framework for Safe and Diverse Alpha Factor Discovery", arXiv:2604.09601, 2026.
- Shi, Duan & Li, "Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Alpha Factor Mining", AAAI 2026.
- Kim & Song, "PRISM-VQ: Vector-Quantized Discrete Latent Factors Meet Financial Priors", IJCAI-ECAI 2026.
- Zhuang et al., "GRU-PFG: Extract Inter-Stock Correlation from Stock Factors with GNN", arXiv:2411.18997, 2024.
- Shi et al., "AlphaForge: A Framework to Mine and Dynamically Combine Formulaic Alpha Factors", AAAI 2025.
- Zhao et al., "QuantFactor REINFORCE: Mining Steady Formulaic Alpha Factors with Variance-bounded REINFORCE", IEEE TSP, 2025.
声明:本报告基于 2026-05-16 可公开获取的信息编制。GitHub Stars 数据为动态值,论文引用信息以最新版本为准。选型建议仅供参考,实际部署需结合机构具体情况。
评论
评论加载中...