随机变量与概率分布（离散与连续）

一句话概述

随机变量是连接"随机事件"与"数学分析"的桥梁——它把抽象的事件映射成具体的数字，从而可以使用微积分、线性代数等数学工具来分析随机现象。理解离散和连续随机变量的概率质量函数（PMF）和概率密度函数（PDF），是掌握所有高级概率模型的前提。

💡 核心要点：①随机变量将样本空间中的结果映射为实数，分为离散型（取值有限或可列）和连续型（取值不可列）两大类 ②离散随机变量用概率质量函数（PMF）描述每个取值的概率，连续随机变量用概率密度函数（PDF）描述落在某个区间的概率 ③累积分布函数（CDF）对所有随机变量统一适用，单调不减且右连续 ④AI中的随机变量无处不在——Dropout 中的伯努利随机变量、权重初始化的正态随机变量、噪声注入的均匀随机变量

教学与演示

一、随机变量——把结果映射成数字

是什么（定义）：随机变量（Random Variable）是从样本空间 Ω 到实数集 R 的一个函数，记为 X: Ω → R。它不是"变量"而是"函数"——给每个可能的结果赋予一个数字标签。

大白话 掷硬币的结果是"正面"或"反面"，这不太好做数学运算。于是我们规定：正面记作 1，反面记作 0。这个"记作多少"的规则就是一个随机变量。它把花花绿绿的现实世界转化成了冷冰冰的数字世界。

为什么（原理）：随机变量让我们可以对随机现象进行定量分析。有了数字，我们就可以求期望（平均值）、方差（波动程度）、协方差（关联程度），可以绘制分布图，可以做统计推断。可以说，没有随机变量就没有现代统计学。

怎么做（实现）：

import numpy as np

# 定义随机变量 X：掷骰子的点数
np.random.seed(42)  # 固定随机种子
n_rolls = 10000  # 掷骰子次数
rolls = np.random.randint(1, 7, size=n_rolls)  # X的取值范围{1,2,3,4,5,6}

# 随机变量的取值空间
values = np.arange(1, 7)  # X所有可能的取值
print(f"随机变量X的取值空间: {values}")  # 查看取值空间

# 统计每个取值的频率
for v in values:
    freq = np.sum(rolls == v) / n_rolls  # 频率统计
    print(f"P(X={v}) = {freq:.4f}")  # 查看每个值的概率

# 随机变量可以定义在复杂场景上
# 例如：X = 抛硬币10次中正面的次数
n_tosses = 10  # 每次实验抛10次
n_exp = 5000  # 重复5000次实验
coin_tosses = np.random.binomial(n=n_tosses, p=0.5, size=n_exp)  # 二项分布模拟
print(f"\n抛10次硬币，正面次数的可能取值: {np.unique(coin_tosses)}")  # 查看取值
print(f"正面次数的平均值: {np.mean(coin_tosses):.2f}")  # 应该接近np=5

随机变量与概率分布（离散与连续）（动画演示）

什么用（应用）：在AI中，每个数据样本的每个特征都是一个随机变量（的观测值）；模型参数初始化是随机变量的实现；Dropout 层在训练时引入了随机变量来决定哪些神经元被保留。

哪些坑（缺点）：初学者常把随机变量和它的取值混为一谈。X 是随机变量（一个映射规则），x 是它的一个具体取值。就像"身高"是一个随机变量（每个人都有身高），而"175cm"是身高这个随机变量的一个取值。

二、离散随机变量与PMF

是什么（定义）：离散随机变量取值有限或可列无穷。概率质量函数（PMF, Probability Mass Function）f(x) = P(X=x) 给出随机变量 X 取每个具体值 x 的概率，满足 f(x) ≥ 0 且 Σf(x) = 1。

大白话 离散就是"一个萝卜一个坑"——每个取值就是一个坑，PMF 告诉你每个坑里有多少"概率质量"。掷骰子的 PMF 就是六个坑，每个坑里有 1/6 的质量。

为什么（原理）：PMF 完整描述了一个离散随机变量的分布。知道 PMF 就能计算任何事件的概率：P(X∈A) = Σ_{x∈A} f(x)。二项分布、泊松分布、几何分布等都是通过 PMF 定义的。

怎么做（实现）：

import numpy as np

# 离散随机变量：二项分布 Binomial(n=20, p=0.3)
n, p = 20, 0.3  # 参数：20次试验，每次成功率0.3
k_values = np.arange(0, n + 1)  # 可能取值：0,1,2,...,20

# 计算PMF：P(X=k) = C(n,k) * p^k * (1-p)^(n-k)
from math import comb  # 组合数函数
pmf_binomial = np.array([comb(n, k) * (p ** k) * ((1 - p) ** (n - k))  # PMF公式计算
                          for k in k_values])
print(f"PMF之和 = {np.sum(pmf_binomial):.10f}")  # 验证PMF之和为1

# 找出概率最大的k值（众数）
max_k = k_values[np.argmax(pmf_binomial)]  # 概率最大的取值
print(f"概率最大的k值: k={max_k}, P(X={max_k})={np.max(pmf_binomial):.4f}")  # 查看众数

# 模拟验证
np.random.seed(42)  # 固定种子
samples = np.random.binomial(n=n, p=p, size=100000)  # 模拟10万次
for k in [3, 6, 9, 12]:  # 抽查几个k值
    sim_prob = np.mean(samples == k)  # 模拟频率
    theo_prob = pmf_binomial[k]  # 理论概率
    print(f"P(X={k:2d}): 理论={theo_prob:.4f}, 模拟={sim_prob:.4f}")  # 理论与模拟对比

随机变量与概率分布（离散与连续）（动画演示）

离散PMF与二项分布\(f(k) = P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k=0,1,\dots,n\)

什么用（应用）：二项分布用于建模"n 次独立试验中的成功次数"，如 CTR 预估（n 次展示中的点击次数）。多项分布是二项分布的推广，用于多分类任务的标签建模。

哪些坑（缺点）：二项分布要求每次试验独立且同分布，这个假设在现实中不一定成立。比如用户连续点击行为之间可能相关（点了一个之后更容易点下一个），此时二项分布会低估方差。

三、连续随机变量与PDF

是什么（定义）：连续随机变量取值不可列（如某个区间内所有实数）。概率密度函数（PDF, Probability Density Function）f(x) ≥ 0，且 ∫f(x)dx = 1。注意：PDF 在某一点的值不是概率！概率是 PDF 在区间上的积分：P(a<X<b) = ∫_a^b f(x)dx。

大白话 连续随机变量就像水流，你不能问"某一点有多少水"（因为一个点的水是0），但你可以问"这一段有多少水"（也就是积分）。PDF 就像是"水流密度"，密度高说明这里水多（概率大），但单独一点的"水"永远是0。

为什么（原理）：现实中的很多量是连续的——身高、体重、温度、股票价格、神经网络的权重。PDF 提供了一种描述"任何区间概率"的方法，是连续分布的核心概念。最著名的 PDF 是正态分布的钟形曲线。

怎么做（实现）：

import numpy as np

# 连续随机变量：正态分布 N(μ=170, σ²=36) 模拟身高
mu, sigma = 170, 6  # 均值170cm，标准差6cm
np.random.seed(42)  # 固定随机种子
heights = np.random.normal(mu, sigma, size=100000)  # 生成10万个身高样本

# 验证：P(X=170) = 0（确切值概率为0，因为是连续的）
exact_170 = np.sum(np.abs(heights - 170) < 1e-6) / len(heights)  # 精确等于170的比例
print(f"P(X=170) ≈ {exact_170}（连续随机变量某点概率为0）")  # 定点概率为0

# 区间概率：P(164 < X < 176) → 用频率近似
interval_prob = np.sum((heights > 164) & (heights < 176)) / len(heights)  # 区间频率
print(f"P(164 < X < 176) ≈ {interval_prob:.4f}")  # 区间概率，应约0.6827（1σ范围）

# 手动计算正态分布PDF
def normal_pdf(x, mu, sigma):
    coeff = 1 / (sigma * np.sqrt(2 * np.pi))  # 归一化系数
    exponent = np.exp(-0.5 * ((x - mu) / sigma) ** 2)  # 指数部分
    return coeff * exponent  # 完整PDF公式

test_x = np.array([160, 165, 170, 175, 180])  # 测试几个点
for x_val in test_x:
    pdf_val = normal_pdf(x_val, mu, sigma)  # PDF值（不是概率！）
    print(f"f({x_val}) = {pdf_val:.5f}（注意：这是密度值，不是概率）")  # 查看密度

随机变量与概率分布（离散与连续）（动画演示）

连续PDF与正态分布\(f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad x \in \mathbb{R}\)

什么用（应用）：正态分布是 AI 中最常用的分布之一——权重初始化（He 初始化、Xavier 初始化）、Batch Normalization 后激活值的分布、梯度噪声的近似分布。指数分布常用于建模等待时间。

哪些坑（缺点）：PDF 的值可以大于 1（只要积分等于 1 即可）。例如均匀分布 U(0, 0.5) 在 [0, 0.5] 上的 PDF 值为 2。这是初学者常困惑的点——"概率值怎么能大于 1？"答案是：那不是概率，是密度。

四、累积分布函数CDF

是什么（定义）：累积分布函数（CDF, Cumulative Distribution Function）F(x) = P(X ≤ x)，表示随机变量 X 不超过 x 的概率。CDF 对所有随机变量（离散+连续+混合）统一适用。

大白话 CDF 就是"累计"。离散时把所有 ≤x 的 PMF 值加起来，连续时把 PDF 从 -∞ 积到 x。它的形状是从 0 到 1 单调上升的阶梯或曲线——告诉你"到现在为止攒了多少概率"。

为什么（原理）：CDF 具有三条优雅性质：①单调不减——x 越大，累积概率不会变小；② F(-∞)=0, F(+∞)=1；③右连续。通过 CDF 可以方便地计算 P(a<X≤b) = F(b) - F(a)。CDF 的反函数还用于逆变换采样——一种生成任意分布随机数的方法。

怎么做（实现）：

import numpy as np

# 模拟身高数据并计算经验CDF
np.random.seed(42)  # 固定随机种子
heights = np.random.normal(170, 6, size=10000)  # 正态分布身高数据
sorted_heights = np.sort(heights)  # 排序以便计算CDF

# 经验CDF：F(x) = (≤x的样本数) / 总样本数
def empirical_cdf(x, data):
    return np.mean(data <= x)  # 返回≤x的比例

# 计算几个关键点的CDF
test_points = [155, 160, 165, 170, 175, 180, 185]  # 测试点
for x in test_points:
    cdf_val = empirical_cdf(x, heights)  # 经验CDF
    print(f"F({x}) ≈ {cdf_val:.4f}")  # 查看CDF值

# 利用CDF计算区间概率 P(160<X≤180)
p_160_180 = empirical_cdf(180, heights) - empirical_cdf(160, heights)  # CDF差值
print(f"\nP(160<X≤180) = F(180)-F(160) ≈ {p_160_180:.4f}")  # 区间概率

# 逆变换采样：用均匀分布生成正态分布（基于CDF的逆函数）
n_samples = 5000  # 样本数
uniform_samples = np.random.uniform(0, 1, n_samples)  # 均匀分布随机数
# 手动实现：用正态分布CDF逆（erf函数）
from math import erf, sqrt  # 误差函数用于计算CDF逆
def norm_ppf(p, mu, sigma):
    # 使用误差函数近似计算正态分布的分位函数
    return mu + sigma * sqrt(2) * (2 * p - 1)  # 近似：实际应用可用scipy

# 简化版逆变换采样演示
print(f"\n均匀分布样本(前5个): {uniform_samples[:5]}")  # 查看均匀样本
# 实际inverse CDF更复杂，这里展示原理
print("逆变换采样原理：U~Uniform(0,1) → F^{-1}(U) ~ 目标分布")

随机变量与概率分布（离散与连续）（动画演示）

CDF与区间概率\(F(x) = P(X \leq x), \quad P(a < X \leq b) = F(b) - F(a)\)

什么用（应用）：CDF 的逆（分位函数）用于生成随机样本（逆变换采样）。在 GAN 的训练中，生成器本质上是在学习将均匀随机变量通过一个可学习的"伪 CDF 逆"映射到数据分布。在异常检测中，CDF 用于确定 p 值的阈值。

哪些坑（缺点）：CDF 在离散情形下是阶梯函数，不是可逆的（多个 x 对应同一个 F(x)），这使得离散分布的逆变换采样需要广义逆（generalized inverse）。

五、AI中的随机变量——噪声、Dropout

是什么（定义）：在深度学习中，随机变量被广泛应用于正则化（Dropout、DropConnect）、数据增强（随机裁剪、翻转）、生成模型（GAN 的潜在变量、VAE 的编码）、贝叶斯神经网络（权重的概率化）。

大白话 AI 训练时经常"故意加噪音"——训练时随机扔掉一些神经元（Dropout），随机给数据加点扰动，或者在图片上随机切一块。这看起来像是在"捣乱"，但实际上这些随机性能让模型学得更稳、更泛化，不会死记硬背。

为什么（原理）：随机性的引入打破了神经元之间的"共适应"（co-adaptation），迫使每个神经元独立地学习有用特征。从概率的角度看，Dropout 等价于训练时对指数级数量的"瘦网络"做模型平均（model averaging），从而降低过拟合。噪声注入等效于对损失函数施加了正则化约束。

怎么做（实现）：

import numpy as np

# 模拟 Dropout：训练时随机丢弃神经元
np.random.seed(42)  # 固定随机种子
features = np.array([0.5, 0.8, 0.3, 0.9, 0.1, 0.7])  # 6个神经元的输出
keep_prob = 0.5  # 保留概率50%

# Dropout 实现：生成伯努利随机变量掩码
mask = (np.random.uniform(0, 1, size=features.shape) < keep_prob).astype(float)  # 生成掩码
# 重要：训练时需要除以keep_prob做缩放（Inverted Dropout）
dropped = (features * mask) / keep_prob  # 缩放以保持期望值不变

print(f"原始特征: {features}")  # 查看原始特征
print(f"Dropout掩码: {mask}")  # 查看丢弃掩码
print(f"Dropout后（缩放）: {dropped}")  # 查看缩放后的结果
print(f"原始期望: {np.mean(features):.3f}")  # 原始均值
print(f"Dropout后期望: {np.mean(dropped):.3f}（Inverted Dropout保持期望不变）")  # Dropout后均值

# 数据增强：给图像加高斯噪声（模拟）
image_pixel = np.array([100, 150, 200, 80, 120, 180])  # 模拟像素值
noise = np.random.normal(0, 5, size=image_pixel.shape)  # 高斯噪声随机变量
augmented = np.clip(image_pixel + noise, 0, 255)  # 加噪声并裁剪到[0,255]
print(f"\n原像素值: {image_pixel}")  # 查看原像素
print(f"噪声: {noise.astype(int)}")  # 查看噪声
print(f"增强后像素: {augmented.astype(int)}")  # 增强后像素

# 权重初始化演示：正态分布初始化
n_in, n_out = 10, 20  # 输入输出维度
# He初始化：标准差 sqrt(2/n_in)
he_std = np.sqrt(2.0 / n_in)  # He初始化标准差
W = np.random.normal(0, he_std, size=(n_out, n_in))  # 正态分布初始化权重
print(f"\n权重矩阵形状: {W.shape}")  # 查看权重形状
print(f"权重均值: {np.mean(W):.6f}")  # 接近0
print(f"权重标准差: {np.std(W):.4f}（理论值: {he_std:.4f}）")  # 验证标准差

随机变量与概率分布（离散与连续）（动画演示）

什么用（应用）：Dropout 是防止过拟合的标准手段，几乎所有的全连接网络都在用。数据增强通过引入随机变换增大有效数据集规模，在图像分类中必不可少。噪声注入还用于差分隐私（differential privacy）保护训练数据隐私。He 初始化和 Xavier 初始化通过精心设计的正态/均匀分布确保信号在前向和反向传播中保持合适的方差。

哪些坑（缺点）：Dropout 在训练和推理时的行为不同——训练时随机丢弃，推理时保留全部神经元（不缩放）。这个不一致性是初学者常见的 bug 来源。Inverted Dropout（训练时除以保留概率）通过让推理时不做任何操作来解决这个问题。另外，权重初始化如果标准差设置不当，会导致梯度消失或梯度爆炸。

概念关系图谱

概念	核心含义	与AI的关系	关联概念
随机变量 X	从样本空间到实数的映射	数据特征、模型参数都是随机变量的观测	PMF、PDF、CDF
离散随机变量	取值有限或可列	分类标签（猫/狗）、计数（点击次数）	PMF、伯努利、二项分布
连续随机变量	取值不可列（区间内所有实数）	图像像素值、权重、梯度值	PDF、正态分布、均匀分布
PMF	概率质量函数 f(x)=P(X=x)	分类器输出的离散概率分布	离散随机变量、CDF
PDF	概率密度函数，积分为概率	生成模型学习的数据密度	连续随机变量、CDF
CDF	累积分布函数 F(x)=P(X≤x)	分位数计算、置信度校准	PMF、PDF、逆变换采样
期望 E[X]	随机变量的加权平均值	损失函数的期望、模型预测的期望	方差、大数定律
Dropout噪声	伯努利随机变量的结构化应用	防止过拟合、近似模型平均	伯努利分布、正则化
权重初始化	用特定分布生成随机权重初值	He/Xavier初始化确保梯度稳定	正态分布、均匀分布
逆变换采样	用CDF逆将均匀分布映射到目标分布	GAN生成器、reparameterization trick	CDF、均匀分布

重点答疑

Q1: PDF的值为什么可以大于1？概率不是不能大于1吗？

这是最常被问的问题！PDF（概率密度函数）在某一点的值不是概率，而是"概率密度"。打个比方：一根绳子的"质量密度"可以很高（比如铁比棉花密度大），但一小段的质量永远是密度乘以长度。同理，概率 = PDF值 × 区间宽度（积分）。单点概率永远是 0（因为区间宽度为 0）。所以 PDF > 1 完全合法，比如 U(0, 0.5) 的 PDF 恒为 2。只要整体积分等于 1 就满足概率公理。

Q2: 离散和连续随机变量有什么本质区别？

核心区别在于"概率如何分配"：离散随机变量把总概率 1 分配到可数个"点"上（用 PMF），每个点有非零概率；连续随机变量把总概率 1 分配到不可数的"连续区域"上（用 PDF），任何单点的概率都是 0，只有区间才有非零概率。这个区别看似微小，实则影响深远——离散可以用求和（Σ），连续必须用积分（∫），而且离散的 CDF 是阶梯状的，连续的是平滑曲线。

Q3: 为什么 Dropout 训练时要除以 keep_prob（Inverted Dropout）？

如果不除，训练时神经元的输出均值会变成原来的 keep_prob 倍（因为有些神经元被关掉了）。推理时所有神经元都在，输出会比训练时大。为了让训练和推理的行为一致，训练时把保留的神经元输出除以 keep_prob（放大），这样训练时的期望输出和推理时一致。推理时就不需要任何特殊处理，直接使用完整的网络即可。

Q4: 为什么连续随机变量单点概率为 0，但 PDF 却能描述整个分布？

这是一个深刻的数学问题。在实数轴上，任何一个"点"的测度（长度）为 0。概率可以理解为"密度 × 长度"——当长度为 0 时，无论密度多大，概率都是 0。但 PDF 通过积分可以恢复任意区间的概率：P(a<X<b) = ∫_a^b f(x)dx。打个比方：你不能问"一根绳子在某一点的重量"，因为一个点没有长度，绳子重量为 0。但你知道绳子的"线密度"（每米多少克），乘上长度就是重量。PDF 就是概率的"线密度"。

Q5: 混合随机变量是什么？实际中有哪些例子？

混合随机变量（Mixed Random Variable）是既非纯离散也非纯连续的随机变量——它的 CDF 既有阶梯又有连续部分。经典例子：①降雨量——精确的 0mm（不下雨，离散的概率质量）和连续的降雨量（>0mm 时）；②保险理赔金额——精确的 0 元（不出险，离散概率）和连续的理赔金额（出险后）；③ReLU 激活函数的输出——精确的 0（输入为负时，离散概率）和连续的激活值（输入为正时）。混合随机变量的 CDF 是阶梯函数和连续函数的组合，处理起来比纯离散或纯连续复杂。

章节单词汇总

英文	音标	术语/释义
Random Variable	/ˈrændəm ˈveriəbəl/	随机变量，样本空间到实数的映射
Discrete	/dɪˈskriːt/	离散的，取值有限或可列
Continuous	/kənˈtɪnjuəs/	连续的，取值不可列
PMF	/piː em ef/	概率质量函数，离散随机变量的概率分布
PDF	/piː diː ef/	概率密度函数，连续随机变量的概率分布
CDF	/siː diː ef/	累积分布函数，P(X≤x)
Bernoulli	/bərˈnuːli/	伯努利，0-1二值随机变量
Binomial	/baɪˈnoʊmiəl/	二项分布，n次伯努利试验的成功次数
Dropout	/drɑːpaʊt/	随机丢弃神经元，深度学习正则化技术
Inverse Transform Sampling	/ɪnˈvɜːrs trænsˈfɔːrm ˈsæmplɪŋ/	逆变换采样，用均匀分布生成任意分布
Expected Value	/ɪkˈspektɪd ˈvæljuː/	期望值，随机变量的加权平均
Support	/səˈpɔːrt/	支撑集，随机变量概率非零的取值集合
He Initialization	/hiː ɪˌnɪʃəlaɪˈzeɪʃən/	He初始化，针对ReLU的正态分布权重初始化
Xavier Initialization	/ˈzeɪviər ɪˌnɪʃəlaɪˈzeɪʃən/	Xavier初始化，保持方差一致的初始化方法

面试练习

Q1 [单选] 以下哪项关于 PDF 的说法是正确的？

A. PDF 在某一点的值就是该点的概率
B. PDF 的值必须在 0 到 1 之间
C. PDF 在区间上积分得到概率
D. PDF 只适用于离散随机变量

解答：PDF 通过积分得到概率：P(a<X<b)=∫_a^b f(x)dx。A 错误，单点概率为 0。B 错误，密度值可以大于 1。D 错误，PDF 用于连续随机变量。

Q2 [单选] 一个随机变量 X 的 CDF 为 F(x)，则 P(a<X≤b) 等于？

A. F(a) - F(b)
B. F(b) - F(a)
C. f(b) - f(a)
D. F(a) + F(b)

解答：P(a<X≤b) = P(X≤b) - P(X≤a) = F(b) - F(a)。CDF 的核心用途之一就是计算区间概率。

Q3 [多选] 关于随机变量，以下哪些说法是正确的？

A. 随机变量本质是一个从样本空间到实数的函数
B. 离散随机变量的 PMF 之和等于 1
C. 连续随机变量某一点的概率为 0
D. CDF 只适用于连续随机变量

解答：A 正确，随机变量的严格定义是函数 X: Ω→R。B 正确，PMF 是概率的完整分配。C 正确，连续随机变量单点概率为 0。D 错误，CDF 对所有随机变量统一适用。

Q4 [单选] 在 Inverted Dropout 中，训练时保留的神经元输出需要怎么做？

A. 什么都不做
B. 乘以保留概率 keep_prob
C. 除以保留概率 keep_prob
D. 乘以 (1-keep_prob)

解答：除以 keep_prob 使得训练时的期望输出保持不变。例如保留概率 0.5，则保留的神经元输出变为原来的 2 倍，这样平均下来和原始输出一致。

Q5 [单选] 一个连续随机变量 X 的 PDF 为 f(x) = 2x（0<x<1），则 P(0.2<X<0.6) 等于？

A. 0.2
B. 0.16
C. 0.32
D. 0.64

解答：P(0.2<X<0.6) = ∫{0.2}^{0.6} 2x dx = [x²]{0.2}^{0.6} = 0.36 - 0.04 = 0.32。注意验证 f(x) 在 [0,1] 上的积分 = ∫_0^1 2x dx = 1，是合法的 PDF。

Q6 [多选] 关于逆变换采样，以下哪些是正确的？

A. 它利用 CDF 的反函数将均匀分布转换为目标分布
B. 它可以用来生成任意已知CDF逆函数的分布的随机数
C. 它只能生成正态分布的随机数
D. 它基于 Y=F^{-1}(U) 当 U~Uniform(0,1) 时 Y 的分布为 F

解答：A、B、D 正确。C 错误，它可以生成任意已知 CDF 反函数的分布，不限于正态分布。

Q7 [单选] 关于二项分布 Binomial(n, p)，当 n=1 时它退化为？

A. 正态分布
B. 伯努利分布
C. 泊松分布
D. 均匀分布

解答：Binomial(1, p) 只有两个可能取值 0 和 1，P(X=1)=p，P(X=0)=1-p，这正是伯努利分布 Bernoulli(p) 的定义。

Q8 [多选] 以下哪些是随机变量在 AI 中的实际应用？

A. Dropout 中使用伯努利随机变量决定神经元保留与否
B. 神经网络权重初始化使用正态分布或均匀分布
C. 数据增强中给图像添加高斯噪声作为随机扰动
D. VAE 的编码器输出潜在变量分布的参数（如 μ 和 σ）

解答：以上全部都是随机变量在 AI 中的实际应用。Dropout（伯努利）、权重初始化（正态/均匀）、数据增强（高斯噪声）、VAE 重参数化（正态）都涉及具体分布的随机变量。

Q9 [单选] 如果 X 是一个连续随机变量，那么 P(X=π) 等于？

A. f(π)，即 PDF 在 π 处的值
B. 无法确定
C. 0
D. F(π)，即 CDF 在 π 处的值

解答：对于连续随机变量，任何一个具体值的概率都是 0，因为"点"在连续空间中没有"长度"。概率是通过积分求的，而 ∫_π^π f(x)dx = 0。

Q10 [多选] 关于 CDF 的性质，正确的有？

A. F(-∞) = 0, F(+∞) = 1
B. F(x) 单调不减
C. F(x) 的值可以大于 1
D. 对于任何随机变量（离散/连续/混合），CDF 都有定义

解答：CDF 是概率的累积，从 0 开始单调递增到 1，不可能大于 1。它对所有类型的随机变量都适用，这是它相对于 PMF/PDF 的优势。