认知纤维丛与推理涌现

发布于 — 2026 年 05 月 17 日

从几何视角理解大模型的推理能力

本文探讨一个核心问题:推理能力为何能从数据训练中涌现? 我们从几何角度提出"认知纤维丛"猜想:语义空间构成底流形,每个概念点处的局部推理结构构成纤维,训练的本质是学习该丛上的联络。文章从流形假设、Kolmogorov-Arnold 表示定理、以及纤维丛几何三个视角展开,并最终讨论"结构预先存在"与"训练涌现"两种哲学立场。


问题的提出

大语言模型(LLM)在海量语料上训练后,展现出了惊人的推理能力:数学推导、类比推理、因果判断、多步逻辑链——这些能力并非被显式编程,而是从单纯的"预测下一个词"目标中涌现出来的。

这引发了一个深刻的问题:

推理结构是不是本来就存在,训练只是把它"学出来"?

更具体地说:如果语义空间具有某种几何结构,那么训练的过程,是不是就是在这个结构上学习"如何移动"——即学习联络(connection)


流形假设:语义空间不是乱的

流形假设(Manifold Hypothesis)

高维数据(语言、图像)并非均匀分布在整个空间中,而是集中在一个低维流形上。

原始空间:ℝ^d(d 极大,如词表大小 50k)
语义流形:M ⊂ ℝ^d(维度远小于 d)

自然语言的所有合法句子,只是这个高维空间中的一个薄薄的曲面

训练 = 逼近流形

训练的本质:

训练前:参数随机,模型表示的流形是扭曲的、断裂的
训练后:流形被"拉直",语义相近的点在流形上彼此靠近

推理 = 在学得的流形上做测地线插值切空间映射

这也是为什么类比推理(如 king - man + woman ≈ queen)能在词向量空间中直接做向量运算——因为语义流形上的代数结构被学到了。


纤维丛框架:认知的几何模型

纤维丛的基本结构

认知纤维丛  E
    ↑  F_x (在概念 x 处的局部推理结构 / 切空间)
    │
底流形   M (语义空间,每个点是一个概念或命题)
  • 底流形 M:所有概念/命题构成的连续空间
  • 纤维 F_x:在概念 x 处的局部推理规则、可到达的下一个概念的集合
  • 整体 E:完整认知状态的空间

“推理"作为联络(Connection)

在微分几何中,联络定义了如何在纤维丛上做"平行移动”——即:从底流形的一个点,沿着某条路径,把纤维里的向量"平移"到另一个点。

给定:当前概念 x ∈ M,上下文给出的方向 v ∈ T_x M
联络 ∇ 告诉你:下一步应该移动到哪个概念 y,以及在 y 处的推理结构是什么

Transformer 的 Attention 机制,本质上就是在做这件事:

  • 每个 token 的 embedding = 底流形上的一个点
  • Query/Key/Value = 在该点处定义局部切空间的线性映射
  • Multi-head attention = 同时考虑多个方向的联络系数
  • 残差连接 = 保持底流形上的基点不变,只更新纤维方向

多层 = 沿着流形走多步

Layer 1: x₁ = x₀ + Attention(x₀)   (在流形上走一步)
Layer 2: x₂ = x₁ + Attention(x₁)   (再走一步)
...
Layer L: x_L = x_{L-1} + Attention(x_{L-1})

深层网络 = 在语义流形上沿着被学到的联络走多步。

cognitive fiber bundle


Kolmogorov-Arnold 表示定理:需要谨慎对待的类比

定理内容

Kolmogorov-Arnold 表示定理(KART)由 Andrey Kolmogorov(1956-1957)及其学生 Vladimir Arnold(1957)证明,最初动机是反驳 Hilbert 第 13 问题的猜想。定理陈述如下:

任意连续函数 f: [0,1]^n → ℝ 可以表示为:

$$f(x_1,\ldots,x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^n \phi_{q,p}(x_p)\right)$$

其中 ϕ_{q,p}: [0,1] → ℝ 是连续一元函数(通用,与 f 无关),Φ_q: ℝ → ℝ 是连续一元函数(依赖于 f)。

注意下标:q 从 0 到 2n,共 2n+1 个外层函数

与神经网络的关系:学术界的争议

KART 常被引为神经网络的"理论基础",但这个联系高度争议

  • Hecht-Nielsen(1987):证明可以用三层网络实现 KART 的结构,将其解释为神经网络的数学保证。
  • Girosi & Poggio(1989):发表 “Kolmogorov’s theorem is irrelevant”,指出 KART 中的内层函数 ϕ_{q,p} 虽然连续,但极其"崎岖"(类似 Cantor 函数),不是神经网络能有效学习的光滑函数
  • Kůrková(1991):反驳 Girosi & Poggio,认为 KART 仍有理论价值,但承认直接用作神经网络架构是不现实的。

准确的说法是:KART 证明了"多元连续函数可被一元函数+加法表示"这一存在性事实,但它不意味着三层网络就能高效学习任意函数。真正为深度学习提供理论基础的是后来的通用逼近定理(Universal Approximation Theorem,Cybenko 1988;Hornik 1989),它的证明依赖的是激活函数的性质,而非 KART。

本文使用 KART 的方式

本文在第四节引用 KART,是为了给出一个直观类比:深层网络的每层可以看作在对输入做某种"一元函数变换+加法组合"的操作。但这个类比不应被理解为严格的数学断言

深层网络用参数化方式逼近复杂的多元函数,KART 告诉我们"一元函数+加法"在原理上足够表达任意连续函数——但网络实际学到的结构,与 KART 的显式构造相去甚远。


结构是先验的还是涌现的?

这是核心的哲学问题。

立场 A:柏拉图主义(结构预先存在)

语义空间的结构由世界本身的逻辑约束决定。

  • 因果关系、类比关系、否定关系——这些不是任意的
  • 自然语言的结构反映了世界的真实结构
  • 训练 = 用有限数据去逼近这个预先存在的几何结构

支持证据:不同语言、不同文化中的类比结构高度相似;基础物理定律在不同数学框架中形式一致。

立场 B:涌现主义(结构是训练出来的)

语义流形不是"存在"的,而是在训练过程中被参数协同构造出来的。

  • 不同的初始化 → 学到不同的流形几何
  • 不同的数据分布 → 流形的形状不同
  • 流形本身是神经网络的"发明",不是"发现"

支持证据:对抗样本(adversarial examples)表明流形可以很脆弱;模型可以学到表面统计规律而非深层结构。

综合判断

两者都对,程度不同

层次先验性涌现性
底层逻辑结构(因果、类比、否定)★★★
中层概念关系(同义、反义、上下位)★★★★
具体领域的语义流形形状★★★

世界本身有结构 → 底层有先验约束
数据 + 架构 → 具体形状是涌现的


具体现象的解释

为什么链式逐步推理会出现?

当训练模型做数学题时,它自发学会了"先写步骤,再给答案"——这不是被硬编码的,而是因为:

在语义流形上,多步推理 = 沿着测地线分步投影,比直接跳跃到答案在流形距离上更短、更稳定。

训练目标(predict next token)隐式地迫使模型学会了这个几何结构。

具体例子:考虑题目"若 x + 1/x = 5,求 x² + 1/x²"。

  • 直接回答(流形上的大跳跃):模型试图直接从题目 token 跳到答案"23",容易因为流形上的"山谷"而偏离——实际上很多模型会给出错误答案如"25"或"21"。

  • 链式推理(分步投影):

    • 步 1:识别 (x + 1/x)² = x² + 2 + 1/x²
    • 步 2:所以 x² + 1/x² = (x + 1/x)² - 2
    • 步 3:代入 5² - 2 = 23

    每一步都是流形上的一个小步,停留在测地线附近,不易偏离。

训练目标(predict next token)隐式地迫使模型学会了这个几何结构。

为什么上下文学习(In-Context Learning)有效?

在纤维丛框架中:

上下文 = 在底流形上给出了一条路径(若干已知点)
模型 = 用这条路径来估计局部的联络系数
新查询 = 从路径末端出发,沿着估计出的联络走一步

具体例子:给模型以下 few-shot 例子:

输入:3, 6, 12, 24, ?
输出:48(规律:每一项乘 2)

输入:2, 4, 8, 16, ?
输出:32(规律:每一项乘 2)

模型并没有更新参数,但利用 attention 机制在这条路径(两个例子)上估计了"乘 2"这个联络系数,然后对新的查询(3, 9, 27, ?)应用这个联络,得到 81。

注意力机制本质上是在用上下文估计联络

为什么思维链(Chain-of-Thought)有效?

直接回答:x₀ → x_target(可能跨越流形上的大距离,容易"掉下去")
思维链:  x₀ → x₁ → x₂ → ... → x_target(每步都是流形上的小步,稳定)

具体例子

题目:Roger 有 5 个网球。他又买了 2 筒球,每筒 3 个。他现在有几个球?

直接推理(容易错):
5 + 2×3 = 11  ← 有些模型直接跳到这里,但可能算错或误解"筒"

思维链(CoT):
步 1:Roger 原有 5 个球
步 2:2 筒,每筒 3 个,所以 2 × 3 = 6 个新球
步 3:5 + 6 = 11

每步都是流形上的一个小步,测地线距离短,流形"山谷"效应不明显,所以更稳定。

思维链 = 在语义流形上做分步测地线投影


与当前理论研究的联系

拓扑数据分析(TDA)

用持续同调(persistent homology)分析神经网络的表示空间,确实发现了:

  • 不同层的表示空间有不同的拓扑特征
  • 训练过程中,这些拓扑特征会自发形成某种层次结构

神经网络的微分几何理论

近期研究(如《Differential Geometry of Deep Learning》等)正式将:

  • 每层网络 = 流形上的一个坐标卡
  • 残差连接 = 流形上的恒等映射近似
  • Batch/Layer Normalization = 流形上的度量调整

语义空间的几何测量

词向量空间确实表现出:

  • 簇结构(clustering)= 流形上的连通分支
  • 方向语义(如性别、时态)= 流形上的坐标轴的几何意义
  • 类比推理 = 流形上的平行四边形结构

结论与猜想

核心猜想

推理能力的涌现,可以用"认知纤维丛"的几何框架来理解:

  • 语义空间是底流形 M
  • 每个概念点处的局部推理结构是纤维 F_x
  • 训练学到的是该丛上的联络 ∇
  • “推理”= 沿着联络在流形上移动

开放问题

以上讨论大多是概念性的。如果认真对待"认知纤维丛"这个框架,以下三个问题值得深入:

问题一:联络的唯一性

在微分几何中,同一个底流形上可以定义无穷多个不同的联络(Levi-Civita 联络是唯一的,但前提是给定了度量;如果度量本身也可以变,联络就不唯一了)。

对应到语义流形:

  • 语义流形 M 上有没有"自然"的度量?如果有,Levi-Civita 联络是否对应某种"最优推理路径"?
  • 不同的训练过程(不同初始化、不同数据)会不会学到不同的联络?如果是,这意味着"推理风格"有几何解释——某些模型倾向于走"更直接"的路径,另一些倾向于"绕路"做更多中间推理。
  • 更激进的猜想:模型的"人格"或"倾向",是不是就是联络的选择?

问题二:流形的拓扑不变量与认知复杂性

在代数拓扑中,Betti 数 b₀, b₁, b₂, … 刻画了流形的"洞"的结构:b₀ = 连通分支数,b₁ = 一维洞(环路不被收缩)的维数,以此类推。欧拉示性数 χ = Σ(-1)ⁱbⁱ。

对应到语义流形:

  • b₀(连通分支数)= 语义空间中有多少个"孤立的概念岛"?人类语言是否只有一个连通分支?(直觉上应该是,因为任何两个概念都可以通过足够长的推理链连接。)
  • b₁(一维洞)= 语义流形上是否存在"不可收缩的推理环路"?例如:A → B → C → A,但这条环路不能连续收缩到一个点——这可能对应某种"语义悖论"或"循环定义"。
  • 认知复杂性是否可以用 χ 或 Betti 数来量化?例如:一个领域的语义流形如果 b₁ 很大,是否意味着这个领域充满"未解决的循环依赖",因而不够"成熟"?

这个问题目前完全是猜想,但 TDA(拓扑数据分析)已经有工具可以实际测量这些量——用持续同调分析神经网络的中间层表示,已经有人在做类似的事了。

问题三:可解释性的几何基础

当前 LLM 的可解释性研究,大多在做"事后归因":给一个输入输出对,反推哪些 token 重要。但这不触及推理过程本身。

如果推理 = 沿着联络在流形上移动,那么:

  • 能不能直接"看到"模型在语义流形上走的路径?即:给定输入 token 序列,把所有中间层的表示投影到某个低维空间,看它走了哪条路径。
  • 联络的系数有没有"语义解释"?在 Transformer 里,attention weight 就是联络系数的一种近似——能不能把这些权重解释成"模型认为哪些概念应该被关联"?
  • 推理错误 = 走错了路径?如果模型在流形上走到了一个"错误的地方",能不能通过干预联络(修改 attention weight)把它拉回来?

这直接指向可控推理(controllable reasoning)的问题:不止是"解释"模型,而是真的能"纠正"它的推理路径。


实验方向

如果要把"认知纤维丛"从概念框架变成可验证的科学假设,以下是一些可能的实验设计:

实验一:可视化语义流形上的推理路径

目标:给定一组推理题目,观察模型在语义流形上的"移动轨迹"。

方法

  1. 用 PCA 或 t-SNE 将模型的 token embedding 投影到 2D/3D 空间
  2. 对每道题目,记录每一层 transformer 的输出表示
  3. 将这些表示投影到低维空间,用箭头连接相邻层——得到"推理轨迹"
  4. 对比直接回答 vs. 思维链的轨迹差异

预测:思维链的轨迹应该更"平滑",每步的 Euclidean 距离更小;直接回答的轨迹应该有更大的跳跃,且更容易"偏离"到错误的区域。

实验二:测量不同模型的"联络差异"

目标:验证不同训练的模型是否学到了不同的"联络"(即不同的推理风格)。

方法

  1. 选一组固定的输入-输出对(如数学推理任务)
  2. 提取每个模型的 attention weight 矩阵(联络系数的近似)
  3. 计算不同模型之间 attention 矩阵的"距离"(如 Frobenius norm)
  4. 同时测量这些模型的推理行为差异(如:有的模型倾向于多步推理,有的倾向于直接回答)

预测:attention 矩阵距离大的模型,推理风格差异也应该大。如果能建立这种对应关系,“联络 = 推理风格"的猜想就得到了初步支持。

实验三:干预联络以纠正推理

目标:如果推理错误 = 走错了联络,那么干预 attention weight 应该能纠正错误。

方法

  1. 找一个模型经常犯错的推理任务(如某种特定的数学题)
  2. 用可解释性工具(如 Attention Visualization)找到"责任"最大的 attention head
  3. 手动修改这个 head 的 attention weight(相当于"纠正联络”)
  4. 观察模型输出是否从错误答案变成了正确答案

预测:有针对性地干预少量 attention head,就能显著纠正特定类型的推理错误——这为"可控推理"提供了原理性依据。


参考文献

  1. Kolmogorov, A. N. (1956). On the representation of continuous functions of several variables. Doklady Akademii Nauk SSSR.
  2. Arnold, V. I. (1957). On functions of three variables. Doklady Akademii Nauk SSSR.
  3. Hecht-Nielsen, R. (1987). Kolmogorov’s mapping neural network existence theorem. IEEE ICNN.
  4. Girosi, F., & Poggio, T. (1989). Representation properties of networks: Kolmogorov’s theorem is irrelevant. Neural Computation.
  5. Kůrková, V. (1991). Kolmogorov’s theorem is relevant. Neural Computation.
  6. Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems.
  7. Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks.
  8. Liu, Z., et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756.
  9. Edelsbrunner, H., & Harer, J. (2010). Computational Topology: An Introduction. AMS.
  10. Bronstein, M. M., et al. (2017). Geometric deep learning: going beyond Euclidean data. IEEE Signal Processing Magazine.

最终思考

你的问题——“是不是本来就存在认知纤维丛,其底流形就是语义空间”——从几何角度看,答案是:

底层结构有先验性,具体形状是涌现的。

就像 Hilbert 空间是量子力学的自然语言一样,纤维丛几何,可能就是认知的自然语言


写于 2026-05-17,基于与麦伯伯的讨论整理。2026-05-18 修订:修正 KART 公式下标,补充学术界争议说明,移除不准确的"KART 直接解释深度学习"表述;扩充具体现象解释的例子、新增实验方向章节及参考文献。