大数定律与中心极限定理
一句话概述
大数定律和中心极限定理是概率论的两大"擎天柱"——前者告诉我们样本均值会收敛到期望,后者告诉我们无论原始分布是什么,样本均值的分布趋向正态。这两条定理共同构成了统计推断的基石,也是 AI 中模型评估、Batch Normalization、蒙特卡洛方法等技术的理论基础。
💡 核心要点:①大数定律保证样本均值随样本量增大以概率收敛到总体期望,这是"频率趋近概率"的数学证明 ②中心极限定理断言大量独立同分布随机变量之和的分布趋向正态分布,无论原始分布如何 ③蒙特卡洛方法利用大数定律,通过随机采样来近似计算期望、积分等难以解析求解的量 ④在 AI 中,模型评估(测试集准确率收敛到真实准确率)、Batch Normalization(mini-batch 统计量近似总体统计量)、强化学习(蒙特卡洛估计)都依赖这两条定理
教学与演示
一、大数定律——样本越多越准
是什么(定义):大数定律(Law of Large Numbers, LLN)指出:当样本量 n → ∞ 时,样本均值 X̄_n = (1/n)ΣX_i 以概率收敛到总体期望 μ。分为弱大数定律(依概率收敛)和强大数定律(几乎必然收敛)。
大白话 你抛 10 次硬币,正面可能 7 次(70%);抛 1000 次,正面可能 510 次(51%);抛 100000 次,正面就非常接近 50% 了。样本量越大,样本均值越接近真实期望——这就是大数定律。它证明了"频率趋近概率"这个直觉在数学上是正确的。
为什么(原理):大数定律的证明依赖于切比雪夫不等式:P(|X̄_n - μ| ≥ ε) ≤ Var(X̄_n) / ε² = σ²/(nε²) → 0。也就是说,样本均值的方差随 n 增大而减小(Var(X̄_n) = σ²/n),所以样本均值越来越"集中"在期望附近。这是统计学中所有"用样本推断总体"操作的理论保证。
怎么做(实现):
import numpy as np
# 演示大数定律:样本均值随样本量增大而收敛
np.random.seed(42) # 固定种子
true_mean = 5.0 # 真实期望(指数分布 scale=5 的期望)
# 逐步增加样本量,观察样本均值的收敛
sample_sizes = [10, 50, 100, 500, 1000, 5000, 10000, 50000] # 不同样本量
for n in sample_sizes:
samples = np.random.exponential(scale=true_mean, size=n) # 指数分布采样
sample_mean = np.mean(samples) # 样本均值
error = abs(sample_mean - true_mean) # 偏离真实期望的误差
print(f"n={n:6d}: 样本均值={sample_mean:.4f}, 误差={error:.4f}") # 误差随n增大而减小
# 多次重复实验,展示"依概率收敛"
n_repeats = 1000 # 重复1000次实验
n_small = 50 # 小样本
n_large = 5000 # 大样本
small_means = np.array([np.mean(np.random.exponential(scale=true_mean, size=n_small)) # 小样本均值
for _ in range(n_repeats)])
large_means = np.array([np.mean(np.random.exponential(scale=true_mean, size=n_large)) # 大样本均值
for _ in range(n_repeats)])
print(f"\n重复{n_repeats}次实验:") # 展示多次重复
print(f"n={n_small}: 样本均值标准差={np.std(small_means):.4f}") # 小样本: 方差大
print(f"n={n_large}: 样本均值标准差={np.std(large_means):.4f}") # 大样本: 方差小
print(f"理论值 σ/√n: σ/√{n_small}={true_mean/np.sqrt(n_small):.4f}") # 理论标准差
print(f"理论值 σ/√n: σ/√{n_large}={true_mean/np.sqrt(n_large):.4f}") # 理论标准差
什么用(应用):AI 模型评估的基础——测试集准确率是大数定律的应用:测试样本越多,评估的准确率越接近真实泛化性能。蒙特卡洛方法(随机采样估计期望)也依赖大数定律。在强化学习中,蒙特卡洛策略评估通过多次采样回报来估计价值函数。Batch Normalization 用 mini-batch 的均值/方差估计总体均值和方差,也依赖大数定律。
哪些坑(缺点):大数定律只保证"趋近",不保证"多快趋近"。收敛速度取决于原始分布的方差——方差越大,收敛越慢。另外,大数定律要求独立同分布,但实际数据中样本往往不独立(如时间序列数据),此时需要更复杂的极限理论(如遍历性定理)。
二、中心极限定理——无论什么分布,均值都近似正态
是什么(定义):中心极限定理(Central Limit Theorem, CLT)指出:对于独立同分布的随机变量 X_1,...,X_n(期望 μ,方差 σ²),当 n → ∞ 时,标准化样本均值的分布趋向标准正态分布:√n(X̄_n - μ)/σ → N(0,1)。等价地,X̄_n 近似服从 N(μ, σ²/n)。
大白话 这是概率论中最神奇的结果!不管你原始数据是什么形状——可以是均匀分布(平的)、指数分布(偏的)、甚至是一个奇怪的锯齿形分布——只要取足够多的样本计算均值,这个均值的分布就会变成钟形(正态分布)。这就是为什么正态分布无处不在。
为什么(原理):CLT 的本质是卷积的平滑效应。独立随机变量之和的分布是各自分布的卷积,多次卷积会使分布越来越平滑、越来越对称,最终趋向正态分布。CLT 要求方差有限——如果方差无限(如柯西分布),则不适用。Lindeberg-Feller 定理将 CLT 推广到非同分布情形。
怎么做(实现):
import numpy as np
# 演示中心极限定理:从非正态分布到正态分布
np.random.seed(42) # 固定种子
n_repeats = 10000 # 重复次数
sample_sizes = [1, 2, 5, 10, 30, 100] # 不同样本量
# 使用指数分布(非常偏态!)生成数据
print("指数分布(偏态)的样本均值分布变化:")
for n in sample_sizes:
sample_means = np.array([np.mean(np.random.exponential(scale=1.0, size=n)) # 每次取n个样本
for _ in range(n_repeats)]) # 重复n_repeats次
mean_of_means = np.mean(sample_means) # 均值分布的均值
std_of_means = np.std(sample_means) # 均值分布的标准差
skewness = np.mean((sample_means - mean_of_means)**3) / (std_of_means**3) # 偏度
print(f"n={n:3d}: 均值={mean_of_means:.4f}, 标准差={std_of_means:.4f}, 偏度={skewness:.4f}") # 偏度→0
# 直观展示:即使原始分布是均匀分布,均值也趋向正态
print("\n均匀分布U(0,1)的样本均值分布变化:")
for n in sample_sizes:
sample_means = np.array([np.mean(np.random.uniform(0, 1, size=n)) # 均匀分布采样
for _ in range(n_repeats)])
std_of_means = np.std(sample_means) # 均值分布的标准差
theo_std = (1/np.sqrt(12)) / np.sqrt(n) # 理论标准差
print(f"n={n:3d}: 实际标准差={std_of_means:.4f}, 理论={theo_std:.4f}") # 实际vs理论
什么用(应用):CLT 是统计推断(置信区间、假设检验)的理论基础——t 检验和 z 检验都依赖 CLT 保证样本均值近似正态。在 AI 中,随机梯度下降(SGD)的梯度噪声近似正态分布,这是许多优化理论分析的基础。在模型评估中,可以用 CLT 构建准确率的置信区间。
哪些坑(缺点):CLT 保证的是"标准化后的分布收敛",但没有说收敛速度。对于严重偏态或肥尾的分布,n=30 可能远远不够。另外,CLT 描述的是均值的行为,对于极端值(分位数)的分布,需要极值理论(Extreme Value Theory)而非 CLT。
三、蒙特卡洛方法——用随机模拟求解
是什么(定义):蒙特卡洛方法(Monte Carlo Method)是一种通过随机采样来近似计算数值结果的方法。核心思想:用样本均值近似期望:E[f(X)] ≈ (1/n)Σf(X_i)。大数定律保证了这个近似的收敛性。
大白话 你想算一个复杂形状的面积,但不知道公式。怎么办?把它放在一个正方形里,随机撒一把豆子,数一数落在形状里的豆子比例,乘以正方形面积,就是形状面积的近似值。豆子撒得越多,结果越准。这就是蒙特卡洛方法——用随机性来"暴力"求解。
为什么(原理):蒙特卡洛积分的误差以 O(1/√n) 的速率减小(由 CLT 保证),与维度无关!这意味着在计算高维积分时,蒙特卡洛方法比网格法(误差 O(n^{-1/d}),d 是维度)有巨大优势。这是为什么蒙特卡洛在 AI(高维参数空间)中如此重要。
怎么做(实现):
import numpy as np
# 蒙特卡洛方法:估算圆周率 π
np.random.seed(42) # 固定种子
def estimate_pi(n_points):
# 在[-1,1]×[-1,1]正方形内随机撒点
x = np.random.uniform(-1, 1, n_points) # x坐标随机
y = np.random.uniform(-1, 1, n_points) # y坐标随机
# 判断点是否在单位圆内:x²+y² ≤ 1
inside = (x**2 + y**2) <= 1 # 单位圆内判断
pi_estimate = 4 * np.mean(inside) # π ≈ 4×(圆内点数/总点数)
return pi_estimate
# 不同样本量的π估计
for n in [100, 1000, 10000, 100000, 1000000]:
pi_est = estimate_pi(n) # 蒙特卡洛π估计
error = abs(pi_est - np.pi) # 与真实π的误差
print(f"n={n:7d}: π≈{pi_est:.6f}, 误差={error:.6f}") # 误差随n增大而减小
# 蒙特卡洛积分:∫_0^1 x² dx = 1/3 ≈ 0.3333
n_integral = 100000 # 采样点数
x_samples = np.random.uniform(0, 1, n_integral) # 在[0,1]均匀采样
integral_est = np.mean(x_samples**2) # 样本均值 ≈ E[X²] = ∫_0^1 x² dx
print(f"\n蒙特卡洛积分 ∫_0^1 x² dx ≈ {integral_est:.6f}(真实值=1/3≈0.333333)") # 积分估计
# 验证误差衰减速率 O(1/√n)
n_values = [100, 400, 1600, 6400, 25600, 102400] # 不同样本量
errors = [] # 存储误差
for n in n_values:
est = np.mean(np.random.uniform(0, 1, n)**2) # 蒙特卡洛积分估计
errors.append(abs(est - 1/3)) # 记录误差
print(f"n={n:6d}: 误差={errors[-1]:.6f}") # 误差衰减
什么用(应用):在 AI 中,蒙特卡洛方法无处不在——mini-batch SGD 的梯度是对全梯度的蒙特卡洛估计;强化学习中的蒙特卡洛策略评估和蒙特卡洛树搜索(AlphaGo 的核心);贝叶斯推断中的 MCMC(马尔可夫链蒙特卡洛)采样;Dropout 在推理时用蒙特卡洛 Dropout 估计不确定性。
哪些坑(缺点):蒙特卡洛的收敛速度 O(1/√n) 虽然稳定,但比较慢——要精度提高一位(10x),需要 100x 的样本。在高维空间中,样本可能集中在分布的低密度区域,导致估计效率低("维度灾难")。此时需要用重要性采样、MCMC 等进阶方法。
四、AI中的应用——Batch Normalization、模型评估
是什么(定义):大数定律和中心极限定理在 AI 中的应用包括:①Batch Normalization 用 mini-batch 统计量估计总体统计量;②模型评估用测试集准确率估计泛化准确率;③随机梯度下降中梯度噪声的正态性假设;④集成学习中用多个模型平均降低方差。
大白话 BN 在一个 mini-batch(比如 64 个样本)里算均值和方差,然后用它们来标准化数据。为什么 64 个样本的统计量能代表几百万样本的总体?因为大数定律说样本均值会收敛到总体均值,CLT 说这个近似是靠谱的。同样,为什么测试集准确率能代表模型真实水平?也是大数定律在保证。
为什么(原理):BN 中的 mini-batch 均值 μ_B 是总体均值 μ 的无偏估计,方差 σ²_B 是有偏估计(因为用 μ_B 而不是 μ 计算)。但 CLT 保证 μ_B 的分布近似正态,且方差为 σ²/|B|。这使得 BN 在训练时可以用 mini-batch 统计量,推理时用训练期间累积的全局统计量(移动平均)。
怎么做(实现):
import numpy as np
# 演示 Batch Normalization 的统计量估计
np.random.seed(42) # 固定种子
# 模拟一个大型数据集(总体),均值=5,标准差=3
population = np.random.normal(5, 3, 1000000) # 总体分布
pop_mean, pop_std = np.mean(population), np.std(population) # 总体统计量
print(f"总体均值={pop_mean:.4f}, 总体标准差={pop_std:.4f}") # 总体参数
# 用不同batch size估计统计量,展示大数定律
batch_sizes = [4, 16, 64, 256, 1024] # 不同batch size
n_trials = 1000 # 每个batch size重复1000次
for bs in batch_sizes:
batch_means = np.array([np.mean(np.random.choice(population, bs)) # batch均值
for _ in range(n_trials)])
batch_stds = np.array([np.std(np.random.choice(population, bs)) # batch标准差
for _ in range(n_trials)])
mean_bias = np.mean(batch_means) - pop_mean # 均值估计的偏差
mean_std = np.std(batch_means) # 均值估计的标准差
std_bias = np.mean(batch_stds) - pop_std # 标准差估计的偏差
print(f"\nBatch Size={bs:4d}:")
print(f" 均值估计: 偏差={mean_bias:.4f}, 标准差={mean_std:.4f}(理论={pop_std/np.sqrt(bs):.4f})") # CLT
print(f" 标准差估计: 偏差={std_bias:.4f}") # 标准差估计偏差
# 模型评估的演示:测试准确率
print(f"\n\n模拟模型评估——测试集准确率:")
true_accuracy = 0.85 # 真实泛化准确率
test_sizes = [50, 100, 500, 1000, 5000] # 不同测试集大小
for test_n in test_sizes:
correct = np.random.binomial(test_n, true_accuracy) # 正确预测数
est_accuracy = correct / test_n # 估计准确率
error = abs(est_accuracy - true_accuracy) # 误差
theo_std = np.sqrt(true_accuracy*(1-true_accuracy)/test_n) # 理论标准差
print(f"测试集大小={test_n:5d}: 估计准确率={est_accuracy:.4f}, 误差={error:.4f}, 理论标准差={theo_std:.4f}") # 大数定律
什么用(应用):BN 是现代深度学习的标配组件,它通过大数定律和 CLT 保证 mini-batch 统计量的可靠性。模型评估中,测试集越大,准确率估计越可靠——这是汇报"95% 置信区间"的理论基础。在分布式训练中,大 batch size 需要调整学习率,也与 CLT 的方差缩放有关。
哪些坑(缺点):BN 在 batch size 太小时,mini-batch 统计量方差大(Var(μ_B) = σ²/|B|),导致训练不稳定。这就是为什么小 batch 训练常用 Layer Norm 或 Group Norm 替代。另外,BN 假设训练和测试数据同分布,如果测试数据分布偏移,BN 的全局统计量可能不准确。
概念关系图谱
| 概念 | 核心含义 | 与AI的关系 | 关联概念 |
|---|---|---|---|
| 大数定律 (LLN) | 样本均值→期望(n→∞) | 模型评估、蒙特卡洛方法的理论基础 | 中心极限定理、期望 |
| 中心极限定理 (CLT) | 样本均值分布→正态 | BN统计量、置信区间、梯度噪声 | 大数定律、正态分布 |
| 蒙特卡洛方法 | 随机采样估计期望 | Mini-batch SGD、强化学习、MCMC | 大数定律、期望 |
| Batch Normalization | Mini-batch标准化 | 加速训练、稳定梯度 | 大数定律、CLT、正态分布 |
| 收敛速度 | LLN的收敛速率 O(1/√n) | 决定估计精度所需的样本量 | 大数定律、CLT |
| 依概率收敛 | 弱大数定律的收敛模式 | 实际应用中通常满足 | 大数定律 |
| 重要性采样 | 改变采样分布降低方差 | 强化学习中的Off-policy学习 | 蒙特卡洛、方差 |
| MCMC | 马尔可夫链蒙特卡洛采样 | 贝叶斯神经网络的后验推断 | 蒙特卡洛、贝叶斯 |
| 置信区间 | 基于CLT的区间估计 | 模型评估的误差范围 | CLT、正态分布 |
| 方差缩减 | 减少蒙特卡洛估计方差 | 更高效的梯度估计 | 蒙特卡洛、方差 |
重点答疑
Q1: 大数定律和中心极限定理有什么本质区别?
大数定律说的是"样本均值会收敛到期望"(收敛性),中心极限定理说的是"样本均值的分布形状趋向正态"(分布形态)。打个比方:大数定律告诉你"箭会射中靶心"(收敛),中心极限定理告诉你"箭的散布模式是圆形的正态分布"(散布形状)。大数定律确保了一致性,CLT 确保了我们可以做概率推断(如计算置信区间)。
Q2: 为什么蒙特卡洛的误差是 O(1/√n) 而不是 O(1/n)?
因为样本均值的方差是 σ²/n,标准差是 σ/√n。蒙特卡洛误差通常用标准差衡量(如 RMSE = σ/√n),所以是 O(1/√n)。这是蒙特卡洛的"诅咒"——要提高一位精度,需要 100 倍的计算量。但也有好消息:这个速率与维度无关,在高维问题中它仍然是最优的(网格法的误差是 O(n^{-1/d}),在 d>2 时比蒙特卡洛差)。
Q3: 大数定律要求独立同分布,但实际数据往往不独立,怎么办?
对于不独立的数据,有更一般的极限理论:平稳时间序列 → 遍历性定理(Ergodic Theorem),时间平均收敛到空间平均;鞅差序列 → 鞅中心极限定理;混合序列 → 各种混合条件下的 CLT。在深度学习中,SGD 的梯度序列不是独立的(参数在更新),但通常假设它们满足某种混合条件,使得 CLT 仍然近似成立。
Q4: 为什么大数定律和中心极限定理被称为概率论的"两大基石"?
因为它们共同构成了从"数据"到"结论"的桥梁。大数定律告诉你"用样本均值估计期望是合理的"(一致性),中心极限定理告诉你"估计的误差有多大"(分布形态和置信区间)。没有大数定律,你无法用数据做任何推断;没有中心极限定理,你无法量化推断的可靠性。在 AI 中,Batch Normalization 同时依赖两者——大数定律保证 mini-batch 统计量趋近总体统计量,CLT 保证这些统计量的分布近似正态从而可以安全地标准化。
Q5: 蒙特卡洛方法在什么情况下会失效?
蒙特卡洛方法在以下情况会失效:①方差无限时(如柯西分布),大数定律不成立,样本均值不收敛;②高维空间中的稀疏性——当维度 d 很高时,大部分随机样本落在分布的低密度区域,导致估计方差极大(这被称为"维度灾难"的蒙特卡洛版本);③多峰分布——如果目标分布有多个分离的峰值,简单蒙特卡洛可能只在一个峰附近采样,遗漏其他峰。在这些情况下,需要用重要性采样(改变采样分布)、MCMC(用马尔可夫链探索分布)、分层采样(Stratified Sampling)等进阶技术来改善。
章节单词汇总
| 英文 | 音标 | 术语/释义 |
|---|---|---|
| Law of Large Numbers (LLN) | /lɔː əv lɑːrdʒ ˈnʌmbərz/ | 大数定律,样本均值收敛到期望 |
| Central Limit Theorem (CLT) | /ˈsentrəl ˈlɪmɪt ˈθɪərəm/ | 中心极限定理,样本均值分布趋向正态 |
| Monte Carlo Method | /ˌmɒnti ˈkɑːrloʊ ˈmeθəd/ | 蒙特卡洛方法,随机采样数值计算 |
| Convergence in Probability | /kənˈvɜːrdʒəns ɪn ˌprɑːbəˈbɪləti/ | 依概率收敛,弱大数定律的收敛模式 |
| Almost Sure Convergence | /ˈɔːlmoʊst ʃʊr kənˈvɜːrdʒəns/ | 几乎必然收敛,强大数定律的收敛模式 |
| Importance Sampling | /ɪmˈpɔːrtəns ˈsæmplɪŋ/ | 重要性采样,改变采样分布降低方差 |
| MCMC | /em siː em siː/ | 马尔可夫链蒙特卡洛,贝叶斯后验采样方法 |
| Batch Normalization | /bætʃ ˌnɔːrməlaɪˈzeɪʃən/ | 批标准化,使用mini-batch统计量标准化 |
| Mini-batch | /ˈmɪni bætʃ/ | 小批量,SGD中每次梯度更新使用的样本子集 |
| SGD | /es dʒiː diː/ | 随机梯度下降,用mini-batch梯度近似全梯度 |
| Ergodic Theorem | /ɜːrˈɡɒdɪk ˈθɪərəm/ | 遍历性定理,时间平均收敛到空间平均 |
| Chebyshev's Inequality | /tʃɪˈbɪʃɒfs ˌɪnɪˈkwɒləti/ | 切比雪夫不等式,大数定律证明工具 |
| Confidence Interval | /ˈkɒnfɪdəns ˈɪntərvəl/ | 置信区间,基于CLT的区间估计 |
| Variance Reduction | /ˈveriəns rɪˈdʌkʃən/ | 方差缩减,减少蒙特卡洛估计方差的技术 |
面试练习
Q1 [单选] 大数定律保证了什么?
- A. 样本均值服从正态分布
- B. 样本均值收敛到总体期望
- C. 样本方差收敛到总体方差
- D. 样本分布收敛到正态分布
解答:大数定律的核心结论是:当样本量 n→∞ 时,样本均值 X̄_n 收敛到总体期望 μ。样本均值服从正态分布是中心极限定理的结论。
Q2 [单选] 中心极限定理要求原始分布满足什么条件?
- A. 必须是正态分布
- B. 必须是连续分布
- C. 方差必须有限
- D. 必须是离散分布
解答:CLT 的核心条件是方差有限(σ² < ∞)。如果方差无限(如柯西分布),标准化后的样本均值不会收敛到正态分布。CLT 不要求原始分布是正态、连续或离散——任何有限方差的分布都行。
Q3 [多选] 关于蒙特卡洛方法,正确的有?
- A. 误差以 O(1/√n) 的速率衰减
- B. 在高维问题中比网格法更有效
- C. 它是大数定律的直接应用
- D. 误差与维度 d 成正比
解答:A 正确。B 正确,蒙特卡洛在高维(d>2)时优于网格法,因为网格法误差 ∝ n^{-1/d}。C 正确,蒙特卡洛就是用样本均值近似期望。D 错误,蒙特卡洛误差与维度无关。
Q4 [单选] 在 Batch Normalization 中,为什么 mini-batch 的均值可以用来估计总体均值?
- A. 因为模型的权重是随机的
- B. 因为大数定律保证样本均值是总体均值的无偏且一致估计
- C. 因为激活函数是 ReLU
- D. 因为 mini-batch 是随机抽取的,但与大数定律无关
解答:大数定律保证了样本均值(mini-batch 均值)收敛到总体均值。BN 正是利用了这个统计性质。
Q5 [多选] 以下哪些是中心极限定理的应用?
- A. 构建均值的置信区间
- B. 假设检验中的 z 检验和 t 检验
- C. 解释为什么测量误差近似正态分布
- D. 解释为什么 SGD 中的梯度噪声近似正态分布
解答:以上全部都是 CLT 的应用。C 是经典应用——测量误差是大量微小误差的叠加。D 是深度学习中的应用——SGD 梯度是 mini-batch 梯度的均值,CLT 保证其近似正态。
Q6 [单选] 蒙特卡洛估计的误差从 0.01 降到 0.001,大约需要增加多少倍的样本量?
- A. 10 倍
- B. 100 倍
- C. 1000 倍
- D. 2 倍
解答:误差 ∝ 1/√n。要将误差降到原来的 1/10,需要 √n 增加 10 倍,即 n 增加 100 倍。这是蒙特卡洛方法的主要缺点:收敛慢。
Q7 [单选] 如果原始分布是高度偏态的指数分布,n=30 时样本均值分布会怎样?
- A. 仍然是偏态的指数分布
- B. 近似正态分布(CLT 保证)
- C. 变成均匀分布
- D. 无法确定
解答:CLT 保证无论原始分布是什么,只要方差有限,样本均值在 n→∞ 时趋向正态。n=30 是经验法则上的"足够大",虽然对于严重偏态的分布可能还不够好,但方向正确。
Q8 [多选] 关于大数定律和蒙特卡洛,以下哪些正确?
- A. 大数定律是蒙特卡洛方法的理论基础
- B. 蒙特卡洛积分在高维问题中比数值积分(网格法)更高效
- C. 大数定律保证任何样本量下均值分布都是正态的
- D. 蒙特卡洛的误差可以通过方差缩减技术来改善
解答:A 正确。B 正确,维度越高蒙特卡洛优势越大。C 错误,大数定律说的是收敛性,正态性是 CLT 的内容。D 正确,重要性采样、控制变量法等都是方差缩减技术。
Q9 [单选] 强化学习中的蒙特卡洛方法基于什么原理?
- A. 中心极限定理
- B. 大数定律——通过多次采样回报的均值估计价值函数
- C. 贝叶斯定理
- D. 梯度下降
解答:蒙特卡洛策略评估通过对多条完整轨迹的回报取平均来估计状态价值 V(s) ≈ (1/n)ΣG_t,这正是大数定律的应用。
Q10 [多选] 以下哪些因素会影响大数定律的收敛速度?
- A. 原始分布的方差(方差越大收敛越慢)
- B. 样本量 n(n 越大误差越小)
- C. 原始分布的均值
- D. 样本之间的相关性(相关性会降低有效样本量)
解答:A 正确,Var(X̄_n) = σ²/n,σ 越大收敛越慢。B 正确,n 越大误差越小。C 错误,均值不影响收敛速度。D 正确,正相关会减少有效样本量,降低收敛速度。