随机变量与概率分布(离散与连续)

一句话概述

随机变量是连接"随机事件"与"数学分析"的桥梁——它把抽象的事件映射成具体的数字,从而可以使用微积分、线性代数等数学工具来分析随机现象。理解离散和连续随机变量的概率质量函数(PMF)和概率密度函数(PDF),是掌握所有高级概率模型的前提。

💡 核心要点:①随机变量将样本空间中的结果映射为实数,分为离散型(取值有限或可列)和连续型(取值不可列)两大类 ②离散随机变量用概率质量函数(PMF)描述每个取值的概率,连续随机变量用概率密度函数(PDF)描述落在某个区间的概率 ③累积分布函数(CDF)对所有随机变量统一适用,单调不减且右连续 ④AI中的随机变量无处不在——Dropout 中的伯努利随机变量、权重初始化的正态随机变量、噪声注入的均匀随机变量

教学与演示

一、随机变量——把结果映射成数字

是什么(定义):随机变量(Random Variable)是从样本空间 Ω 到实数集 R 的一个函数,记为 X: Ω → R。它不是"变量"而是"函数"——给每个可能的结果赋予一个数字标签。

大白话 掷硬币的结果是"正面"或"反面",这不太好做数学运算。于是我们规定:正面记作 1,反面记作 0。这个"记作多少"的规则就是一个随机变量。它把花花绿绿的现实世界转化成了冷冰冰的数字世界。

为什么(原理):随机变量让我们可以对随机现象进行定量分析。有了数字,我们就可以求期望(平均值)、方差(波动程度)、协方差(关联程度),可以绘制分布图,可以做统计推断。可以说,没有随机变量就没有现代统计学。

怎么做(实现)

import numpy as np

# 定义随机变量 X:掷骰子的点数
np.random.seed(42)  # 固定随机种子
n_rolls = 10000  # 掷骰子次数
rolls = np.random.randint(1, 7, size=n_rolls)  # X的取值范围{1,2,3,4,5,6}

# 随机变量的取值空间
values = np.arange(1, 7)  # X所有可能的取值
print(f"随机变量X的取值空间: {values}")  # 查看取值空间

# 统计每个取值的频率
for v in values:
    freq = np.sum(rolls == v) / n_rolls  # 频率统计
    print(f"P(X={v}) = {freq:.4f}")  # 查看每个值的概率

# 随机变量可以定义在复杂场景上
# 例如:X = 抛硬币10次中正面的次数
n_tosses = 10  # 每次实验抛10次
n_exp = 5000  # 重复5000次实验
coin_tosses = np.random.binomial(n=n_tosses, p=0.5, size=n_exp)  # 二项分布模拟
print(f"\n抛10次硬币,正面次数的可能取值: {np.unique(coin_tosses)}")  # 查看取值
print(f"正面次数的平均值: {np.mean(coin_tosses):.2f}")  # 应该接近np=5

什么用(应用):在AI中,每个数据样本的每个特征都是一个随机变量(的观测值);模型参数初始化是随机变量的实现;Dropout 层在训练时引入了随机变量来决定哪些神经元被保留。

哪些坑(缺点):初学者常把随机变量和它的取值混为一谈。X 是随机变量(一个映射规则),x 是它的一个具体取值。就像"身高"是一个随机变量(每个人都有身高),而"175cm"是身高这个随机变量的一个取值。

二、离散随机变量与PMF

是什么(定义):离散随机变量取值有限或可列无穷。概率质量函数(PMF, Probability Mass Function)f(x) = P(X=x) 给出随机变量 X 取每个具体值 x 的概率,满足 f(x) ≥ 0 且 Σf(x) = 1。

大白话 离散就是"一个萝卜一个坑"——每个取值就是一个坑,PMF 告诉你每个坑里有多少"概率质量"。掷骰子的 PMF 就是六个坑,每个坑里有 1/6 的质量。

为什么(原理):PMF 完整描述了一个离散随机变量的分布。知道 PMF 就能计算任何事件的概率:P(X∈A) = Σ_{x∈A} f(x)。二项分布、泊松分布、几何分布等都是通过 PMF 定义的。

怎么做(实现)

import numpy as np

# 离散随机变量:二项分布 Binomial(n=20, p=0.3)
n, p = 20, 0.3  # 参数:20次试验,每次成功率0.3
k_values = np.arange(0, n + 1)  # 可能取值:0,1,2,...,20

# 计算PMF:P(X=k) = C(n,k) * p^k * (1-p)^(n-k)
from math import comb  # 组合数函数
pmf_binomial = np.array([comb(n, k) * (p ** k) * ((1 - p) ** (n - k))  # PMF公式计算
                          for k in k_values])
print(f"PMF之和 = {np.sum(pmf_binomial):.10f}")  # 验证PMF之和为1

# 找出概率最大的k值(众数)
max_k = k_values[np.argmax(pmf_binomial)]  # 概率最大的取值
print(f"概率最大的k值: k={max_k}, P(X={max_k})={np.max(pmf_binomial):.4f}")  # 查看众数

# 模拟验证
np.random.seed(42)  # 固定种子
samples = np.random.binomial(n=n, p=p, size=100000)  # 模拟10万次
for k in [3, 6, 9, 12]:  # 抽查几个k值
    sim_prob = np.mean(samples == k)  # 模拟频率
    theo_prob = pmf_binomial[k]  # 理论概率
    print(f"P(X={k:2d}): 理论={theo_prob:.4f}, 模拟={sim_prob:.4f}")  # 理论与模拟对比
离散PMF与二项分布\(f(k) = P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n\)

什么用(应用):二项分布用于建模"n 次独立试验中的成功次数",如 CTR 预估(n 次展示中的点击次数)。多项分布是二项分布的推广,用于多分类任务的标签建模。

哪些坑(缺点):二项分布要求每次试验独立且同分布,这个假设在现实中不一定成立。比如用户连续点击行为之间可能相关(点了一个之后更容易点下一个),此时二项分布会低估方差。

三、连续随机变量与PDF

是什么(定义):连续随机变量取值不可列(如某个区间内所有实数)。概率密度函数(PDF, Probability Density Function)f(x) ≥ 0,且 ∫f(x)dx = 1。注意:PDF 在某一点的值不是概率!概率是 PDF 在区间上的积分:P(a<X<b) = ∫_a^b f(x)dx。

大白话 连续随机变量就像水流,你不能问"某一点有多少水"(因为一个点的水是0),但你可以问"这一段有多少水"(也就是积分)。PDF 就像是"水流密度",密度高说明这里水多(概率大),但单独一点的"水"永远是0。

为什么(原理):现实中的很多量是连续的——身高、体重、温度、股票价格、神经网络的权重。PDF 提供了一种描述"任何区间概率"的方法,是连续分布的核心概念。最著名的 PDF 是正态分布的钟形曲线。

怎么做(实现)

import numpy as np

# 连续随机变量:正态分布 N(μ=170, σ²=36) 模拟身高
mu, sigma = 170, 6  # 均值170cm,标准差6cm
np.random.seed(42)  # 固定随机种子
heights = np.random.normal(mu, sigma, size=100000)  # 生成10万个身高样本

# 验证:P(X=170) = 0(确切值概率为0,因为是连续的)
exact_170 = np.sum(np.abs(heights - 170) < 1e-6) / len(heights)  # 精确等于170的比例
print(f"P(X=170) ≈ {exact_170}(连续随机变量某点概率为0)")  # 定点概率为0

# 区间概率:P(164 < X < 176) → 用频率近似
interval_prob = np.sum((heights > 164) & (heights < 176)) / len(heights)  # 区间频率
print(f"P(164 < X < 176) ≈ {interval_prob:.4f}")  # 区间概率,应约0.6827(1σ范围)

# 手动计算正态分布PDF
def normal_pdf(x, mu, sigma):
    coeff = 1 / (sigma * np.sqrt(2 * np.pi))  # 归一化系数
    exponent = np.exp(-0.5 * ((x - mu) / sigma) ** 2)  # 指数部分
    return coeff * exponent  # 完整PDF公式

test_x = np.array([160, 165, 170, 175, 180])  # 测试几个点
for x_val in test_x:
    pdf_val = normal_pdf(x_val, mu, sigma)  # PDF值(不是概率!)
    print(f"f({x_val}) = {pdf_val:.5f}(注意:这是密度值,不是概率)")  # 查看密度
连续PDF与正态分布\(f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R}\)

什么用(应用):正态分布是 AI 中最常用的分布之一——权重初始化(He 初始化、Xavier 初始化)、Batch Normalization 后激活值的分布、梯度噪声的近似分布。指数分布常用于建模等待时间。

哪些坑(缺点):PDF 的值可以大于 1(只要积分等于 1 即可)。例如均匀分布 U(0, 0.5) 在 [0, 0.5] 上的 PDF 值为 2。这是初学者常困惑的点——"概率值怎么能大于 1?"答案是:那不是概率,是密度。

四、累积分布函数CDF

是什么(定义):累积分布函数(CDF, Cumulative Distribution Function)F(x) = P(X ≤ x),表示随机变量 X 不超过 x 的概率。CDF 对所有随机变量(离散+连续+混合)统一适用。

大白话 CDF 就是"累计"。离散时把所有 ≤x 的 PMF 值加起来,连续时把 PDF 从 -∞ 积到 x。它的形状是从 0 到 1 单调上升的阶梯或曲线——告诉你"到现在为止攒了多少概率"。

为什么(原理):CDF 具有三条优雅性质:①单调不减——x 越大,累积概率不会变小;② F(-∞)=0, F(+∞)=1;③右连续。通过 CDF 可以方便地计算 P(a<X≤b) = F(b) - F(a)。CDF 的反函数还用于逆变换采样——一种生成任意分布随机数的方法。

怎么做(实现)

import numpy as np

# 模拟身高数据并计算经验CDF
np.random.seed(42)  # 固定随机种子
heights = np.random.normal(170, 6, size=10000)  # 正态分布身高数据
sorted_heights = np.sort(heights)  # 排序以便计算CDF

# 经验CDF:F(x) = (≤x的样本数) / 总样本数
def empirical_cdf(x, data):
    return np.mean(data <= x)  # 返回≤x的比例

# 计算几个关键点的CDF
test_points = [155, 160, 165, 170, 175, 180, 185]  # 测试点
for x in test_points:
    cdf_val = empirical_cdf(x, heights)  # 经验CDF
    print(f"F({x}) ≈ {cdf_val:.4f}")  # 查看CDF值

# 利用CDF计算区间概率 P(160<X≤180)
p_160_180 = empirical_cdf(180, heights) - empirical_cdf(160, heights)  # CDF差值
print(f"\nP(160<X≤180) = F(180)-F(160) ≈ {p_160_180:.4f}")  # 区间概率

# 逆变换采样:用均匀分布生成正态分布(基于CDF的逆函数)
n_samples = 5000  # 样本数
uniform_samples = np.random.uniform(0, 1, n_samples)  # 均匀分布随机数
# 手动实现:用正态分布CDF逆(erf函数)
from math import erf, sqrt  # 误差函数用于计算CDF逆
def norm_ppf(p, mu, sigma):
    # 使用误差函数近似计算正态分布的分位函数
    return mu + sigma * sqrt(2) * (2 * p - 1)  # 近似:实际应用可用scipy

# 简化版逆变换采样演示
print(f"\n均匀分布样本(前5个): {uniform_samples[:5]}")  # 查看均匀样本
# 实际inverse CDF更复杂,这里展示原理
print("逆变换采样原理:U~Uniform(0,1) → F^{-1}(U) ~ 目标分布")
CDF与区间概率\(F(x) = P(X \leq x), \quad P(a < X \leq b) = F(b) - F(a)\)

什么用(应用):CDF 的逆(分位函数)用于生成随机样本(逆变换采样)。在 GAN 的训练中,生成器本质上是在学习将均匀随机变量通过一个可学习的"伪 CDF 逆"映射到数据分布。在异常检测中,CDF 用于确定 p 值的阈值。

哪些坑(缺点):CDF 在离散情形下是阶梯函数,不是可逆的(多个 x 对应同一个 F(x)),这使得离散分布的逆变换采样需要广义逆(generalized inverse)。

五、AI中的随机变量——噪声、Dropout

是什么(定义):在深度学习中,随机变量被广泛应用于正则化(Dropout、DropConnect)、数据增强(随机裁剪、翻转)、生成模型(GAN 的潜在变量、VAE 的编码)、贝叶斯神经网络(权重的概率化)。

大白话 AI 训练时经常"故意加噪音"——训练时随机扔掉一些神经元(Dropout),随机给数据加点扰动,或者在图片上随机切一块。这看起来像是在"捣乱",但实际上这些随机性能让模型学得更稳、更泛化,不会死记硬背。

为什么(原理):随机性的引入打破了神经元之间的"共适应"(co-adaptation),迫使每个神经元独立地学习有用特征。从概率的角度看,Dropout 等价于训练时对指数级数量的"瘦网络"做模型平均(model averaging),从而降低过拟合。噪声注入等效于对损失函数施加了正则化约束。

怎么做(实现)

import numpy as np

# 模拟 Dropout:训练时随机丢弃神经元
np.random.seed(42)  # 固定随机种子
features = np.array([0.5, 0.8, 0.3, 0.9, 0.1, 0.7])  # 6个神经元的输出
keep_prob = 0.5  # 保留概率50%

# Dropout 实现:生成伯努利随机变量掩码
mask = (np.random.uniform(0, 1, size=features.shape) < keep_prob).astype(float)  # 生成掩码
# 重要:训练时需要除以keep_prob做缩放(Inverted Dropout)
dropped = (features * mask) / keep_prob  # 缩放以保持期望值不变

print(f"原始特征: {features}")  # 查看原始特征
print(f"Dropout掩码: {mask}")  # 查看丢弃掩码
print(f"Dropout后(缩放): {dropped}")  # 查看缩放后的结果
print(f"原始期望: {np.mean(features):.3f}")  # 原始均值
print(f"Dropout后期望: {np.mean(dropped):.3f}(Inverted Dropout保持期望不变)")  # Dropout后均值

# 数据增强:给图像加高斯噪声(模拟)
image_pixel = np.array([100, 150, 200, 80, 120, 180])  # 模拟像素值
noise = np.random.normal(0, 5, size=image_pixel.shape)  # 高斯噪声随机变量
augmented = np.clip(image_pixel + noise, 0, 255)  # 加噪声并裁剪到[0,255]
print(f"\n原像素值: {image_pixel}")  # 查看原像素
print(f"噪声: {noise.astype(int)}")  # 查看噪声
print(f"增强后像素: {augmented.astype(int)}")  # 增强后像素

# 权重初始化演示:正态分布初始化
n_in, n_out = 10, 20  # 输入输出维度
# He初始化:标准差 sqrt(2/n_in)
he_std = np.sqrt(2.0 / n_in)  # He初始化标准差
W = np.random.normal(0, he_std, size=(n_out, n_in))  # 正态分布初始化权重
print(f"\n权重矩阵形状: {W.shape}")  # 查看权重形状
print(f"权重均值: {np.mean(W):.6f}")  # 接近0
print(f"权重标准差: {np.std(W):.4f}(理论值: {he_std:.4f})")  # 验证标准差

什么用(应用):Dropout 是防止过拟合的标准手段,几乎所有的全连接网络都在用。数据增强通过引入随机变换增大有效数据集规模,在图像分类中必不可少。噪声注入还用于差分隐私(differential privacy)保护训练数据隐私。He 初始化和 Xavier 初始化通过精心设计的正态/均匀分布确保信号在前向和反向传播中保持合适的方差。

哪些坑(缺点):Dropout 在训练和推理时的行为不同——训练时随机丢弃,推理时保留全部神经元(不缩放)。这个不一致性是初学者常见的 bug 来源。Inverted Dropout(训练时除以保留概率)通过让推理时不做任何操作来解决这个问题。另外,权重初始化如果标准差设置不当,会导致梯度消失或梯度爆炸。

概念关系图谱

概念核心含义与AI的关系关联概念
随机变量 X从样本空间到实数的映射数据特征、模型参数都是随机变量的观测PMF、PDF、CDF
离散随机变量取值有限或可列分类标签(猫/狗)、计数(点击次数)PMF、伯努利、二项分布
连续随机变量取值不可列(区间内所有实数)图像像素值、权重、梯度值PDF、正态分布、均匀分布
PMF概率质量函数 f(x)=P(X=x)分类器输出的离散概率分布离散随机变量、CDF
PDF概率密度函数,积分为概率生成模型学习的数据密度连续随机变量、CDF
CDF累积分布函数 F(x)=P(X≤x)分位数计算、置信度校准PMF、PDF、逆变换采样
期望 E[X]随机变量的加权平均值损失函数的期望、模型预测的期望方差、大数定律
Dropout噪声伯努利随机变量的结构化应用防止过拟合、近似模型平均伯努利分布、正则化
权重初始化用特定分布生成随机权重初值He/Xavier初始化确保梯度稳定正态分布、均匀分布
逆变换采样用CDF逆将均匀分布映射到目标分布GAN生成器、reparameterization trickCDF、均匀分布

重点答疑

Q1: PDF的值为什么可以大于1?概率不是不能大于1吗?

这是最常被问的问题!PDF(概率密度函数)在某一点的值不是概率,而是"概率密度"。打个比方:一根绳子的"质量密度"可以很高(比如铁比棉花密度大),但一小段的质量永远是密度乘以长度。同理,概率 = PDF值 × 区间宽度(积分)。单点概率永远是 0(因为区间宽度为 0)。所以 PDF > 1 完全合法,比如 U(0, 0.5) 的 PDF 恒为 2。只要整体积分等于 1 就满足概率公理。

Q2: 离散和连续随机变量有什么本质区别?

核心区别在于"概率如何分配":离散随机变量把总概率 1 分配到可数个"点"上(用 PMF),每个点有非零概率;连续随机变量把总概率 1 分配到不可数的"连续区域"上(用 PDF),任何单点的概率都是 0,只有区间才有非零概率。这个区别看似微小,实则影响深远——离散可以用求和(Σ),连续必须用积分(∫),而且离散的 CDF 是阶梯状的,连续的是平滑曲线。

Q3: 为什么 Dropout 训练时要除以 keep_prob(Inverted Dropout)?

如果不除,训练时神经元的输出均值会变成原来的 keep_prob 倍(因为有些神经元被关掉了)。推理时所有神经元都在,输出会比训练时大。为了让训练和推理的行为一致,训练时把保留的神经元输出除以 keep_prob(放大),这样训练时的期望输出和推理时一致。推理时就不需要任何特殊处理,直接使用完整的网络即可。

Q4: 为什么连续随机变量单点概率为 0,但 PDF 却能描述整个分布?

这是一个深刻的数学问题。在实数轴上,任何一个"点"的测度(长度)为 0。概率可以理解为"密度 × 长度"——当长度为 0 时,无论密度多大,概率都是 0。但 PDF 通过积分可以恢复任意区间的概率:P(a<X<b) = ∫_a^b f(x)dx。打个比方:你不能问"一根绳子在某一点的重量",因为一个点没有长度,绳子重量为 0。但你知道绳子的"线密度"(每米多少克),乘上长度就是重量。PDF 就是概率的"线密度"。

Q5: 混合随机变量是什么?实际中有哪些例子?

混合随机变量(Mixed Random Variable)是既非纯离散也非纯连续的随机变量——它的 CDF 既有阶梯又有连续部分。经典例子:①降雨量——精确的 0mm(不下雨,离散的概率质量)和连续的降雨量(>0mm 时);②保险理赔金额——精确的 0 元(不出险,离散概率)和连续的理赔金额(出险后);③ReLU 激活函数的输出——精确的 0(输入为负时,离散概率)和连续的激活值(输入为正时)。混合随机变量的 CDF 是阶梯函数和连续函数的组合,处理起来比纯离散或纯连续复杂。

章节单词汇总

英文音标术语/释义
Random Variable/ˈrændəm ˈveriəbəl/随机变量,样本空间到实数的映射
Discrete/dɪˈskriːt/离散的,取值有限或可列
Continuous/kənˈtɪnjuəs/连续的,取值不可列
PMF/piː em ef/概率质量函数,离散随机变量的概率分布
PDF/piː diː ef/概率密度函数,连续随机变量的概率分布
CDF/siː diː ef/累积分布函数,P(X≤x)
Bernoulli/bərˈnuːli/伯努利,0-1二值随机变量
Binomial/baɪˈnoʊmiəl/二项分布,n次伯努利试验的成功次数
Dropout/drɑːpaʊt/随机丢弃神经元,深度学习正则化技术
Inverse Transform Sampling/ɪnˈvɜːrs trænsˈfɔːrm ˈsæmplɪŋ/逆变换采样,用均匀分布生成任意分布
Expected Value/ɪkˈspektɪd ˈvæljuː/期望值,随机变量的加权平均
Support/səˈpɔːrt/支撑集,随机变量概率非零的取值集合
He Initialization/hiː ɪˌnɪʃəlaɪˈzeɪʃən/He初始化,针对ReLU的正态分布权重初始化
Xavier Initialization/ˈzeɪviər ɪˌnɪʃəlaɪˈzeɪʃən/Xavier初始化,保持方差一致的初始化方法

面试练习

Q1 [单选] 以下哪项关于 PDF 的说法是正确的?

  • A. PDF 在某一点的值就是该点的概率
  • B. PDF 的值必须在 0 到 1 之间
  • C. PDF 在区间上积分得到概率
  • D. PDF 只适用于离散随机变量
解答:PDF 通过积分得到概率:P(a<X<b)=∫_a^b f(x)dx。A 错误,单点概率为 0。B 错误,密度值可以大于 1。D 错误,PDF 用于连续随机变量。

Q2 [单选] 一个随机变量 X 的 CDF 为 F(x),则 P(a<X≤b) 等于?

  • A. F(a) - F(b)
  • B. F(b) - F(a)
  • C. f(b) - f(a)
  • D. F(a) + F(b)
解答:P(a<X≤b) = P(X≤b) - P(X≤a) = F(b) - F(a)。CDF 的核心用途之一就是计算区间概率。

Q3 [多选] 关于随机变量,以下哪些说法是正确的?

  • A. 随机变量本质是一个从样本空间到实数的函数
  • B. 离散随机变量的 PMF 之和等于 1
  • C. 连续随机变量某一点的概率为 0
  • D. CDF 只适用于连续随机变量
解答:A 正确,随机变量的严格定义是函数 X: Ω→R。B 正确,PMF 是概率的完整分配。C 正确,连续随机变量单点概率为 0。D 错误,CDF 对所有随机变量统一适用。

Q4 [单选] 在 Inverted Dropout 中,训练时保留的神经元输出需要怎么做?

  • A. 什么都不做
  • B. 乘以保留概率 keep_prob
  • C. 除以保留概率 keep_prob
  • D. 乘以 (1-keep_prob)
解答:除以 keep_prob 使得训练时的期望输出保持不变。例如保留概率 0.5,则保留的神经元输出变为原来的 2 倍,这样平均下来和原始输出一致。

Q5 [单选] 一个连续随机变量 X 的 PDF 为 f(x) = 2x(0<x<1),则 P(0.2<X<0.6) 等于?

  • A. 0.2
  • B. 0.16
  • C. 0.32
  • D. 0.64
解答:P(0.2<X<0.6) = ∫{0.2}^{0.6} 2x dx = [x²]{0.2}^{0.6} = 0.36 - 0.04 = 0.32。注意验证 f(x) 在 [0,1] 上的积分 = ∫_0^1 2x dx = 1,是合法的 PDF。

Q6 [多选] 关于逆变换采样,以下哪些是正确的?

  • A. 它利用 CDF 的反函数将均匀分布转换为目标分布
  • B. 它可以用来生成任意已知CDF逆函数的分布的随机数
  • C. 它只能生成正态分布的随机数
  • D. 它基于 Y=F^{-1}(U) 当 U~Uniform(0,1) 时 Y 的分布为 F
解答:A、B、D 正确。C 错误,它可以生成任意已知 CDF 反函数的分布,不限于正态分布。

Q7 [单选] 关于二项分布 Binomial(n, p),当 n=1 时它退化为?

  • A. 正态分布
  • B. 伯努利分布
  • C. 泊松分布
  • D. 均匀分布
解答:Binomial(1, p) 只有两个可能取值 0 和 1,P(X=1)=p,P(X=0)=1-p,这正是伯努利分布 Bernoulli(p) 的定义。

Q8 [多选] 以下哪些是随机变量在 AI 中的实际应用?

  • A. Dropout 中使用伯努利随机变量决定神经元保留与否
  • B. 神经网络权重初始化使用正态分布或均匀分布
  • C. 数据增强中给图像添加高斯噪声作为随机扰动
  • D. VAE 的编码器输出潜在变量分布的参数(如 μ 和 σ)
解答:以上全部都是随机变量在 AI 中的实际应用。Dropout(伯努利)、权重初始化(正态/均匀)、数据增强(高斯噪声)、VAE 重参数化(正态)都涉及具体分布的随机变量。

Q9 [单选] 如果 X 是一个连续随机变量,那么 P(X=π) 等于?

  • A. f(π),即 PDF 在 π 处的值
  • B. 无法确定
  • C. 0
  • D. F(π),即 CDF 在 π 处的值
解答:对于连续随机变量,任何一个具体值的概率都是 0,因为"点"在连续空间中没有"长度"。概率是通过积分求的,而 ∫_π^π f(x)dx = 0。

Q10 [多选] 关于 CDF 的性质,正确的有?

  • A. F(-∞) = 0, F(+∞) = 1
  • B. F(x) 单调不减
  • C. F(x) 的值可以大于 1
  • D. 对于任何随机变量(离散/连续/混合),CDF 都有定义
解答:CDF 是概率的累积,从 0 开始单调递增到 1,不可能大于 1。它对所有类型的随机变量都适用,这是它相对于 PMF/PDF 的优势。