本文探讨一个核心问题:推理能力为何能从数据训练中涌现? 我们从几何角度提出"认知纤维丛"猜想:语义空间构成底流形,每个概念点处的局部推理结构构成纤维,训练的本质是学习该丛上的联络。文章从流形假设、Kolmogorov-Arnold 表示定理、以及纤维丛几何三个视角展开,并最终讨论"结构预先存在"与"训练涌现"两种哲学立场。
问题的提出
大语言模型(LLM)在海量语料上训练后,展现出了惊人的推理能力:数学推导、类比推理、因果判断、多步逻辑链——这些能力并非被显式编程,而是从单纯的"预测下一个词"目标中涌现出来的。
这引发了一个深刻的问题:
推理结构是不是本来就存在,训练只是把它"学出来"?
更具体地说:如果语义空间具有某种几何结构,那么训练的过程,是不是就是在这个结构上学习"如何移动"——即学习联络(connection)?
流形假设:语义空间不是乱的
流形假设(Manifold Hypothesis)
高维数据(语言、图像)并非均匀分布在整个空间中,而是集中在一个低维流形上。
原始空间:ℝ^d(d 极大,如词表大小 50k)
语义流形:M ⊂ ℝ^d(维度远小于 d)
自然语言的所有合法句子,只是这个高维空间中的一个薄薄的曲面。
训练 = 逼近流形
训练的本质:
训练前:参数随机,模型表示的流形是扭曲的、断裂的
训练后:流形被"拉直",语义相近的点在流形上彼此靠近
推理 = 在学得的流形上做测地线插值或切空间映射。
这也是为什么类比推理(如 king - man + woman ≈ queen)能在词向量空间中直接做向量运算——因为语义流形上的代数结构被学到了。
纤维丛框架:认知的几何模型
纤维丛的基本结构
认知纤维丛 E
↑ F_x (在概念 x 处的局部推理结构 / 切空间)
│
底流形 M (语义空间,每个点是一个概念或命题)
- 底流形 M:所有概念/命题构成的连续空间
- 纤维 F_x:在概念 x 处的局部推理规则、可到达的下一个概念的集合
- 整体 E:完整认知状态的空间
“推理"作为联络(Connection)
在微分几何中,联络定义了如何在纤维丛上做"平行移动”——即:从底流形的一个点,沿着某条路径,把纤维里的向量"平移"到另一个点。
给定:当前概念 x ∈ M,上下文给出的方向 v ∈ T_x M
联络 ∇ 告诉你:下一步应该移动到哪个概念 y,以及在 y 处的推理结构是什么
Transformer 的 Attention 机制,本质上就是在做这件事:
- 每个 token 的 embedding = 底流形上的一个点
- Query/Key/Value = 在该点处定义局部切空间的线性映射
- Multi-head attention = 同时考虑多个方向的联络系数
- 残差连接 = 保持底流形上的基点不变,只更新纤维方向
多层 = 沿着流形走多步
Layer 1: x₁ = x₀ + Attention(x₀) (在流形上走一步)
Layer 2: x₂ = x₁ + Attention(x₁) (再走一步)
...
Layer L: x_L = x_{L-1} + Attention(x_{L-1})
深层网络 = 在语义流形上沿着被学到的联络走多步。
Kolmogorov-Arnold 表示定理:需要谨慎对待的类比
定理内容
Kolmogorov-Arnold 表示定理(KART)由 Andrey Kolmogorov(1956-1957)及其学生 Vladimir Arnold(1957)证明,最初动机是反驳 Hilbert 第 13 问题的猜想。定理陈述如下:
任意连续函数 f: [0,1]^n → ℝ 可以表示为:
$$f(x_1,\ldots,x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^n \phi_{q,p}(x_p)\right)$$
其中 ϕ_{q,p}: [0,1] → ℝ 是连续一元函数(通用,与 f 无关),Φ_q: ℝ → ℝ 是连续一元函数(依赖于 f)。
注意下标:q 从 0 到 2n,共 2n+1 个外层函数。
与神经网络的关系:学术界的争议
KART 常被引为神经网络的"理论基础",但这个联系高度争议:
- Hecht-Nielsen(1987):证明可以用三层网络实现 KART 的结构,将其解释为神经网络的数学保证。
- Girosi & Poggio(1989):发表 “Kolmogorov’s theorem is irrelevant”,指出 KART 中的内层函数 ϕ_{q,p} 虽然连续,但极其"崎岖"(类似 Cantor 函数),不是神经网络能有效学习的光滑函数。
- Kůrková(1991):反驳 Girosi & Poggio,认为 KART 仍有理论价值,但承认直接用作神经网络架构是不现实的。
准确的说法是:KART 证明了"多元连续函数可被一元函数+加法表示"这一存在性事实,但它不意味着三层网络就能高效学习任意函数。真正为深度学习提供理论基础的是后来的通用逼近定理(Universal Approximation Theorem,Cybenko 1988;Hornik 1989),它的证明依赖的是激活函数的性质,而非 KART。
本文使用 KART 的方式
本文在第四节引用 KART,是为了给出一个直观类比:深层网络的每层可以看作在对输入做某种"一元函数变换+加法组合"的操作。但这个类比不应被理解为严格的数学断言。
深层网络用参数化方式逼近复杂的多元函数,KART 告诉我们"一元函数+加法"在原理上足够表达任意连续函数——但网络实际学到的结构,与 KART 的显式构造相去甚远。
结构是先验的还是涌现的?
这是核心的哲学问题。
立场 A:柏拉图主义(结构预先存在)
语义空间的结构由世界本身的逻辑约束决定。
- 因果关系、类比关系、否定关系——这些不是任意的
- 自然语言的结构反映了世界的真实结构
- 训练 = 用有限数据去逼近这个预先存在的几何结构
支持证据:不同语言、不同文化中的类比结构高度相似;基础物理定律在不同数学框架中形式一致。
立场 B:涌现主义(结构是训练出来的)
语义流形不是"存在"的,而是在训练过程中被参数协同构造出来的。
- 不同的初始化 → 学到不同的流形几何
- 不同的数据分布 → 流形的形状不同
- 流形本身是神经网络的"发明",不是"发现"
支持证据:对抗样本(adversarial examples)表明流形可以很脆弱;模型可以学到表面统计规律而非深层结构。
综合判断
两者都对,程度不同:
| 层次 | 先验性 | 涌现性 |
|---|---|---|
| 底层逻辑结构(因果、类比、否定) | ★★★ | ★ |
| 中层概念关系(同义、反义、上下位) | ★★ | ★★ |
| 具体领域的语义流形形状 | ★ | ★★★ |
世界本身有结构 → 底层有先验约束
数据 + 架构 → 具体形状是涌现的
具体现象的解释
为什么链式逐步推理会出现?
当训练模型做数学题时,它自发学会了"先写步骤,再给答案"——这不是被硬编码的,而是因为:
在语义流形上,多步推理 = 沿着测地线分步投影,比直接跳跃到答案在流形距离上更短、更稳定。
训练目标(predict next token)隐式地迫使模型学会了这个几何结构。
具体例子:考虑题目"若 x + 1/x = 5,求 x² + 1/x²"。
直接回答(流形上的大跳跃):模型试图直接从题目 token 跳到答案"23",容易因为流形上的"山谷"而偏离——实际上很多模型会给出错误答案如"25"或"21"。
链式推理(分步投影):
- 步 1:识别 (x + 1/x)² = x² + 2 + 1/x²
- 步 2:所以 x² + 1/x² = (x + 1/x)² - 2
- 步 3:代入 5² - 2 = 23
每一步都是流形上的一个小步,停留在测地线附近,不易偏离。
训练目标(predict next token)隐式地迫使模型学会了这个几何结构。
为什么上下文学习(In-Context Learning)有效?
在纤维丛框架中:
上下文 = 在底流形上给出了一条路径(若干已知点)
模型 = 用这条路径来估计局部的联络系数
新查询 = 从路径末端出发,沿着估计出的联络走一步
具体例子:给模型以下 few-shot 例子:
输入:3, 6, 12, 24, ?
输出:48(规律:每一项乘 2)
输入:2, 4, 8, 16, ?
输出:32(规律:每一项乘 2)
模型并没有更新参数,但利用 attention 机制在这条路径(两个例子)上估计了"乘 2"这个联络系数,然后对新的查询(3, 9, 27, ?)应用这个联络,得到 81。
注意力机制本质上是在用上下文估计联络。
为什么思维链(Chain-of-Thought)有效?
直接回答:x₀ → x_target(可能跨越流形上的大距离,容易"掉下去")
思维链: x₀ → x₁ → x₂ → ... → x_target(每步都是流形上的小步,稳定)
具体例子:
题目:Roger 有 5 个网球。他又买了 2 筒球,每筒 3 个。他现在有几个球?
直接推理(容易错):
5 + 2×3 = 11 ← 有些模型直接跳到这里,但可能算错或误解"筒"
思维链(CoT):
步 1:Roger 原有 5 个球
步 2:2 筒,每筒 3 个,所以 2 × 3 = 6 个新球
步 3:5 + 6 = 11
每步都是流形上的一个小步,测地线距离短,流形"山谷"效应不明显,所以更稳定。
思维链 = 在语义流形上做分步测地线投影。
与当前理论研究的联系
拓扑数据分析(TDA)
用持续同调(persistent homology)分析神经网络的表示空间,确实发现了:
- 不同层的表示空间有不同的拓扑特征
- 训练过程中,这些拓扑特征会自发形成某种层次结构
神经网络的微分几何理论
近期研究(如《Differential Geometry of Deep Learning》等)正式将:
- 每层网络 = 流形上的一个坐标卡
- 残差连接 = 流形上的恒等映射近似
- Batch/Layer Normalization = 流形上的度量调整
语义空间的几何测量
词向量空间确实表现出:
- 簇结构(clustering)= 流形上的连通分支
- 方向语义(如性别、时态)= 流形上的坐标轴的几何意义
- 类比推理 = 流形上的平行四边形结构
结论与猜想
核心猜想
推理能力的涌现,可以用"认知纤维丛"的几何框架来理解:
- 语义空间是底流形 M
- 每个概念点处的局部推理结构是纤维 F_x
- 训练学到的是该丛上的联络 ∇
- “推理”= 沿着联络在流形上移动
开放问题
以上讨论大多是概念性的。如果认真对待"认知纤维丛"这个框架,以下三个问题值得深入:
问题一:联络的唯一性
在微分几何中,同一个底流形上可以定义无穷多个不同的联络(Levi-Civita 联络是唯一的,但前提是给定了度量;如果度量本身也可以变,联络就不唯一了)。
对应到语义流形:
- 语义流形 M 上有没有"自然"的度量?如果有,Levi-Civita 联络是否对应某种"最优推理路径"?
- 不同的训练过程(不同初始化、不同数据)会不会学到不同的联络?如果是,这意味着"推理风格"有几何解释——某些模型倾向于走"更直接"的路径,另一些倾向于"绕路"做更多中间推理。
- 更激进的猜想:模型的"人格"或"倾向",是不是就是联络的选择?
问题二:流形的拓扑不变量与认知复杂性
在代数拓扑中,Betti 数 b₀, b₁, b₂, … 刻画了流形的"洞"的结构:b₀ = 连通分支数,b₁ = 一维洞(环路不被收缩)的维数,以此类推。欧拉示性数 χ = Σ(-1)ⁱbⁱ。
对应到语义流形:
- b₀(连通分支数)= 语义空间中有多少个"孤立的概念岛"?人类语言是否只有一个连通分支?(直觉上应该是,因为任何两个概念都可以通过足够长的推理链连接。)
- b₁(一维洞)= 语义流形上是否存在"不可收缩的推理环路"?例如:A → B → C → A,但这条环路不能连续收缩到一个点——这可能对应某种"语义悖论"或"循环定义"。
- 认知复杂性是否可以用 χ 或 Betti 数来量化?例如:一个领域的语义流形如果 b₁ 很大,是否意味着这个领域充满"未解决的循环依赖",因而不够"成熟"?
这个问题目前完全是猜想,但 TDA(拓扑数据分析)已经有工具可以实际测量这些量——用持续同调分析神经网络的中间层表示,已经有人在做类似的事了。
问题三:可解释性的几何基础
当前 LLM 的可解释性研究,大多在做"事后归因":给一个输入输出对,反推哪些 token 重要。但这不触及推理过程本身。
如果推理 = 沿着联络在流形上移动,那么:
- 能不能直接"看到"模型在语义流形上走的路径?即:给定输入 token 序列,把所有中间层的表示投影到某个低维空间,看它走了哪条路径。
- 联络的系数有没有"语义解释"?在 Transformer 里,attention weight 就是联络系数的一种近似——能不能把这些权重解释成"模型认为哪些概念应该被关联"?
- 推理错误 = 走错了路径?如果模型在流形上走到了一个"错误的地方",能不能通过干预联络(修改 attention weight)把它拉回来?
这直接指向可控推理(controllable reasoning)的问题:不止是"解释"模型,而是真的能"纠正"它的推理路径。
实验方向
如果要把"认知纤维丛"从概念框架变成可验证的科学假设,以下是一些可能的实验设计:
实验一:可视化语义流形上的推理路径
目标:给定一组推理题目,观察模型在语义流形上的"移动轨迹"。
方法:
- 用 PCA 或 t-SNE 将模型的 token embedding 投影到 2D/3D 空间
- 对每道题目,记录每一层 transformer 的输出表示
- 将这些表示投影到低维空间,用箭头连接相邻层——得到"推理轨迹"
- 对比直接回答 vs. 思维链的轨迹差异
预测:思维链的轨迹应该更"平滑",每步的 Euclidean 距离更小;直接回答的轨迹应该有更大的跳跃,且更容易"偏离"到错误的区域。
实验二:测量不同模型的"联络差异"
目标:验证不同训练的模型是否学到了不同的"联络"(即不同的推理风格)。
方法:
- 选一组固定的输入-输出对(如数学推理任务)
- 提取每个模型的 attention weight 矩阵(联络系数的近似)
- 计算不同模型之间 attention 矩阵的"距离"(如 Frobenius norm)
- 同时测量这些模型的推理行为差异(如:有的模型倾向于多步推理,有的倾向于直接回答)
预测:attention 矩阵距离大的模型,推理风格差异也应该大。如果能建立这种对应关系,“联络 = 推理风格"的猜想就得到了初步支持。
实验三:干预联络以纠正推理
目标:如果推理错误 = 走错了联络,那么干预 attention weight 应该能纠正错误。
方法:
- 找一个模型经常犯错的推理任务(如某种特定的数学题)
- 用可解释性工具(如 Attention Visualization)找到"责任"最大的 attention head
- 手动修改这个 head 的 attention weight(相当于"纠正联络”)
- 观察模型输出是否从错误答案变成了正确答案
预测:有针对性地干预少量 attention head,就能显著纠正特定类型的推理错误——这为"可控推理"提供了原理性依据。
参考文献
- Kolmogorov, A. N. (1956). On the representation of continuous functions of several variables. Doklady Akademii Nauk SSSR.
- Arnold, V. I. (1957). On functions of three variables. Doklady Akademii Nauk SSSR.
- Hecht-Nielsen, R. (1987). Kolmogorov’s mapping neural network existence theorem. IEEE ICNN.
- Girosi, F., & Poggio, T. (1989). Representation properties of networks: Kolmogorov’s theorem is irrelevant. Neural Computation.
- Kůrková, V. (1991). Kolmogorov’s theorem is relevant. Neural Computation.
- Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems.
- Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks.
- Liu, Z., et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756.
- Edelsbrunner, H., & Harer, J. (2010). Computational Topology: An Introduction. AMS.
- Bronstein, M. M., et al. (2017). Geometric deep learning: going beyond Euclidean data. IEEE Signal Processing Magazine.
最终思考
你的问题——“是不是本来就存在认知纤维丛,其底流形就是语义空间”——从几何角度看,答案是:
底层结构有先验性,具体形状是涌现的。
就像 Hilbert 空间是量子力学的自然语言一样,纤维丛几何,可能就是认知的自然语言。
写于 2026-05-17,基于与麦伯伯的讨论整理。2026-05-18 修订:修正 KART 公式下标,补充学术界争议说明,移除不准确的"KART 直接解释深度学习"表述;扩充具体现象解释的例子、新增实验方向章节及参考文献。