随机变量与概率分布(离散与连续)
一句话概述
随机变量是连接"随机事件"与"数学分析"的桥梁——它把抽象的事件映射成具体的数字,从而可以使用微积分、线性代数等数学工具来分析随机现象。理解离散和连续随机变量的概率质量函数(PMF)和概率密度函数(PDF),是掌握所有高级概率模型的前提。
💡 核心要点:①随机变量将样本空间中的结果映射为实数,分为离散型(取值有限或可列)和连续型(取值不可列)两大类 ②离散随机变量用概率质量函数(PMF)描述每个取值的概率,连续随机变量用概率密度函数(PDF)描述落在某个区间的概率 ③累积分布函数(CDF)对所有随机变量统一适用,单调不减且右连续 ④AI中的随机变量无处不在——Dropout 中的伯努利随机变量、权重初始化的正态随机变量、噪声注入的均匀随机变量
教学与演示
一、随机变量——把结果映射成数字
是什么(定义):随机变量(Random Variable)是从样本空间 Ω 到实数集 R 的一个函数,记为 X: Ω → R。它不是"变量"而是"函数"——给每个可能的结果赋予一个数字标签。
大白话 掷硬币的结果是"正面"或"反面",这不太好做数学运算。于是我们规定:正面记作 1,反面记作 0。这个"记作多少"的规则就是一个随机变量。它把花花绿绿的现实世界转化成了冷冰冰的数字世界。
为什么(原理):随机变量让我们可以对随机现象进行定量分析。有了数字,我们就可以求期望(平均值)、方差(波动程度)、协方差(关联程度),可以绘制分布图,可以做统计推断。可以说,没有随机变量就没有现代统计学。
怎么做(实现):
import numpy as np
# 定义随机变量 X:掷骰子的点数
np.random.seed(42) # 固定随机种子
n_rolls = 10000 # 掷骰子次数
rolls = np.random.randint(1, 7, size=n_rolls) # X的取值范围{1,2,3,4,5,6}
# 随机变量的取值空间
values = np.arange(1, 7) # X所有可能的取值
print(f"随机变量X的取值空间: {values}") # 查看取值空间
# 统计每个取值的频率
for v in values:
freq = np.sum(rolls == v) / n_rolls # 频率统计
print(f"P(X={v}) = {freq:.4f}") # 查看每个值的概率
# 随机变量可以定义在复杂场景上
# 例如:X = 抛硬币10次中正面的次数
n_tosses = 10 # 每次实验抛10次
n_exp = 5000 # 重复5000次实验
coin_tosses = np.random.binomial(n=n_tosses, p=0.5, size=n_exp) # 二项分布模拟
print(f"\n抛10次硬币,正面次数的可能取值: {np.unique(coin_tosses)}") # 查看取值
print(f"正面次数的平均值: {np.mean(coin_tosses):.2f}") # 应该接近np=5
什么用(应用):在AI中,每个数据样本的每个特征都是一个随机变量(的观测值);模型参数初始化是随机变量的实现;Dropout 层在训练时引入了随机变量来决定哪些神经元被保留。
哪些坑(缺点):初学者常把随机变量和它的取值混为一谈。X 是随机变量(一个映射规则),x 是它的一个具体取值。就像"身高"是一个随机变量(每个人都有身高),而"175cm"是身高这个随机变量的一个取值。
二、离散随机变量与PMF
是什么(定义):离散随机变量取值有限或可列无穷。概率质量函数(PMF, Probability Mass Function)f(x) = P(X=x) 给出随机变量 X 取每个具体值 x 的概率,满足 f(x) ≥ 0 且 Σf(x) = 1。
大白话 离散就是"一个萝卜一个坑"——每个取值就是一个坑,PMF 告诉你每个坑里有多少"概率质量"。掷骰子的 PMF 就是六个坑,每个坑里有 1/6 的质量。
为什么(原理):PMF 完整描述了一个离散随机变量的分布。知道 PMF 就能计算任何事件的概率:P(X∈A) = Σ_{x∈A} f(x)。二项分布、泊松分布、几何分布等都是通过 PMF 定义的。
怎么做(实现):
import numpy as np
# 离散随机变量:二项分布 Binomial(n=20, p=0.3)
n, p = 20, 0.3 # 参数:20次试验,每次成功率0.3
k_values = np.arange(0, n + 1) # 可能取值:0,1,2,...,20
# 计算PMF:P(X=k) = C(n,k) * p^k * (1-p)^(n-k)
from math import comb # 组合数函数
pmf_binomial = np.array([comb(n, k) * (p ** k) * ((1 - p) ** (n - k)) # PMF公式计算
for k in k_values])
print(f"PMF之和 = {np.sum(pmf_binomial):.10f}") # 验证PMF之和为1
# 找出概率最大的k值(众数)
max_k = k_values[np.argmax(pmf_binomial)] # 概率最大的取值
print(f"概率最大的k值: k={max_k}, P(X={max_k})={np.max(pmf_binomial):.4f}") # 查看众数
# 模拟验证
np.random.seed(42) # 固定种子
samples = np.random.binomial(n=n, p=p, size=100000) # 模拟10万次
for k in [3, 6, 9, 12]: # 抽查几个k值
sim_prob = np.mean(samples == k) # 模拟频率
theo_prob = pmf_binomial[k] # 理论概率
print(f"P(X={k:2d}): 理论={theo_prob:.4f}, 模拟={sim_prob:.4f}") # 理论与模拟对比
什么用(应用):二项分布用于建模"n 次独立试验中的成功次数",如 CTR 预估(n 次展示中的点击次数)。多项分布是二项分布的推广,用于多分类任务的标签建模。
哪些坑(缺点):二项分布要求每次试验独立且同分布,这个假设在现实中不一定成立。比如用户连续点击行为之间可能相关(点了一个之后更容易点下一个),此时二项分布会低估方差。
三、连续随机变量与PDF
是什么(定义):连续随机变量取值不可列(如某个区间内所有实数)。概率密度函数(PDF, Probability Density Function)f(x) ≥ 0,且 ∫f(x)dx = 1。注意:PDF 在某一点的值不是概率!概率是 PDF 在区间上的积分:P(a<X<b) = ∫_a^b f(x)dx。
大白话 连续随机变量就像水流,你不能问"某一点有多少水"(因为一个点的水是0),但你可以问"这一段有多少水"(也就是积分)。PDF 就像是"水流密度",密度高说明这里水多(概率大),但单独一点的"水"永远是0。
为什么(原理):现实中的很多量是连续的——身高、体重、温度、股票价格、神经网络的权重。PDF 提供了一种描述"任何区间概率"的方法,是连续分布的核心概念。最著名的 PDF 是正态分布的钟形曲线。
怎么做(实现):
import numpy as np
# 连续随机变量:正态分布 N(μ=170, σ²=36) 模拟身高
mu, sigma = 170, 6 # 均值170cm,标准差6cm
np.random.seed(42) # 固定随机种子
heights = np.random.normal(mu, sigma, size=100000) # 生成10万个身高样本
# 验证:P(X=170) = 0(确切值概率为0,因为是连续的)
exact_170 = np.sum(np.abs(heights - 170) < 1e-6) / len(heights) # 精确等于170的比例
print(f"P(X=170) ≈ {exact_170}(连续随机变量某点概率为0)") # 定点概率为0
# 区间概率:P(164 < X < 176) → 用频率近似
interval_prob = np.sum((heights > 164) & (heights < 176)) / len(heights) # 区间频率
print(f"P(164 < X < 176) ≈ {interval_prob:.4f}") # 区间概率,应约0.6827(1σ范围)
# 手动计算正态分布PDF
def normal_pdf(x, mu, sigma):
coeff = 1 / (sigma * np.sqrt(2 * np.pi)) # 归一化系数
exponent = np.exp(-0.5 * ((x - mu) / sigma) ** 2) # 指数部分
return coeff * exponent # 完整PDF公式
test_x = np.array([160, 165, 170, 175, 180]) # 测试几个点
for x_val in test_x:
pdf_val = normal_pdf(x_val, mu, sigma) # PDF值(不是概率!)
print(f"f({x_val}) = {pdf_val:.5f}(注意:这是密度值,不是概率)") # 查看密度
什么用(应用):正态分布是 AI 中最常用的分布之一——权重初始化(He 初始化、Xavier 初始化)、Batch Normalization 后激活值的分布、梯度噪声的近似分布。指数分布常用于建模等待时间。
哪些坑(缺点):PDF 的值可以大于 1(只要积分等于 1 即可)。例如均匀分布 U(0, 0.5) 在 [0, 0.5] 上的 PDF 值为 2。这是初学者常困惑的点——"概率值怎么能大于 1?"答案是:那不是概率,是密度。
四、累积分布函数CDF
是什么(定义):累积分布函数(CDF, Cumulative Distribution Function)F(x) = P(X ≤ x),表示随机变量 X 不超过 x 的概率。CDF 对所有随机变量(离散+连续+混合)统一适用。
大白话 CDF 就是"累计"。离散时把所有 ≤x 的 PMF 值加起来,连续时把 PDF 从 -∞ 积到 x。它的形状是从 0 到 1 单调上升的阶梯或曲线——告诉你"到现在为止攒了多少概率"。
为什么(原理):CDF 具有三条优雅性质:①单调不减——x 越大,累积概率不会变小;② F(-∞)=0, F(+∞)=1;③右连续。通过 CDF 可以方便地计算 P(a<X≤b) = F(b) - F(a)。CDF 的反函数还用于逆变换采样——一种生成任意分布随机数的方法。
怎么做(实现):
import numpy as np
# 模拟身高数据并计算经验CDF
np.random.seed(42) # 固定随机种子
heights = np.random.normal(170, 6, size=10000) # 正态分布身高数据
sorted_heights = np.sort(heights) # 排序以便计算CDF
# 经验CDF:F(x) = (≤x的样本数) / 总样本数
def empirical_cdf(x, data):
return np.mean(data <= x) # 返回≤x的比例
# 计算几个关键点的CDF
test_points = [155, 160, 165, 170, 175, 180, 185] # 测试点
for x in test_points:
cdf_val = empirical_cdf(x, heights) # 经验CDF
print(f"F({x}) ≈ {cdf_val:.4f}") # 查看CDF值
# 利用CDF计算区间概率 P(160<X≤180)
p_160_180 = empirical_cdf(180, heights) - empirical_cdf(160, heights) # CDF差值
print(f"\nP(160<X≤180) = F(180)-F(160) ≈ {p_160_180:.4f}") # 区间概率
# 逆变换采样:用均匀分布生成正态分布(基于CDF的逆函数)
n_samples = 5000 # 样本数
uniform_samples = np.random.uniform(0, 1, n_samples) # 均匀分布随机数
# 手动实现:用正态分布CDF逆(erf函数)
from math import erf, sqrt # 误差函数用于计算CDF逆
def norm_ppf(p, mu, sigma):
# 使用误差函数近似计算正态分布的分位函数
return mu + sigma * sqrt(2) * (2 * p - 1) # 近似:实际应用可用scipy
# 简化版逆变换采样演示
print(f"\n均匀分布样本(前5个): {uniform_samples[:5]}") # 查看均匀样本
# 实际inverse CDF更复杂,这里展示原理
print("逆变换采样原理:U~Uniform(0,1) → F^{-1}(U) ~ 目标分布")
什么用(应用):CDF 的逆(分位函数)用于生成随机样本(逆变换采样)。在 GAN 的训练中,生成器本质上是在学习将均匀随机变量通过一个可学习的"伪 CDF 逆"映射到数据分布。在异常检测中,CDF 用于确定 p 值的阈值。
哪些坑(缺点):CDF 在离散情形下是阶梯函数,不是可逆的(多个 x 对应同一个 F(x)),这使得离散分布的逆变换采样需要广义逆(generalized inverse)。
五、AI中的随机变量——噪声、Dropout
是什么(定义):在深度学习中,随机变量被广泛应用于正则化(Dropout、DropConnect)、数据增强(随机裁剪、翻转)、生成模型(GAN 的潜在变量、VAE 的编码)、贝叶斯神经网络(权重的概率化)。
大白话 AI 训练时经常"故意加噪音"——训练时随机扔掉一些神经元(Dropout),随机给数据加点扰动,或者在图片上随机切一块。这看起来像是在"捣乱",但实际上这些随机性能让模型学得更稳、更泛化,不会死记硬背。
为什么(原理):随机性的引入打破了神经元之间的"共适应"(co-adaptation),迫使每个神经元独立地学习有用特征。从概率的角度看,Dropout 等价于训练时对指数级数量的"瘦网络"做模型平均(model averaging),从而降低过拟合。噪声注入等效于对损失函数施加了正则化约束。
怎么做(实现):
import numpy as np
# 模拟 Dropout:训练时随机丢弃神经元
np.random.seed(42) # 固定随机种子
features = np.array([0.5, 0.8, 0.3, 0.9, 0.1, 0.7]) # 6个神经元的输出
keep_prob = 0.5 # 保留概率50%
# Dropout 实现:生成伯努利随机变量掩码
mask = (np.random.uniform(0, 1, size=features.shape) < keep_prob).astype(float) # 生成掩码
# 重要:训练时需要除以keep_prob做缩放(Inverted Dropout)
dropped = (features * mask) / keep_prob # 缩放以保持期望值不变
print(f"原始特征: {features}") # 查看原始特征
print(f"Dropout掩码: {mask}") # 查看丢弃掩码
print(f"Dropout后(缩放): {dropped}") # 查看缩放后的结果
print(f"原始期望: {np.mean(features):.3f}") # 原始均值
print(f"Dropout后期望: {np.mean(dropped):.3f}(Inverted Dropout保持期望不变)") # Dropout后均值
# 数据增强:给图像加高斯噪声(模拟)
image_pixel = np.array([100, 150, 200, 80, 120, 180]) # 模拟像素值
noise = np.random.normal(0, 5, size=image_pixel.shape) # 高斯噪声随机变量
augmented = np.clip(image_pixel + noise, 0, 255) # 加噪声并裁剪到[0,255]
print(f"\n原像素值: {image_pixel}") # 查看原像素
print(f"噪声: {noise.astype(int)}") # 查看噪声
print(f"增强后像素: {augmented.astype(int)}") # 增强后像素
# 权重初始化演示:正态分布初始化
n_in, n_out = 10, 20 # 输入输出维度
# He初始化:标准差 sqrt(2/n_in)
he_std = np.sqrt(2.0 / n_in) # He初始化标准差
W = np.random.normal(0, he_std, size=(n_out, n_in)) # 正态分布初始化权重
print(f"\n权重矩阵形状: {W.shape}") # 查看权重形状
print(f"权重均值: {np.mean(W):.6f}") # 接近0
print(f"权重标准差: {np.std(W):.4f}(理论值: {he_std:.4f})") # 验证标准差
什么用(应用):Dropout 是防止过拟合的标准手段,几乎所有的全连接网络都在用。数据增强通过引入随机变换增大有效数据集规模,在图像分类中必不可少。噪声注入还用于差分隐私(differential privacy)保护训练数据隐私。He 初始化和 Xavier 初始化通过精心设计的正态/均匀分布确保信号在前向和反向传播中保持合适的方差。
哪些坑(缺点):Dropout 在训练和推理时的行为不同——训练时随机丢弃,推理时保留全部神经元(不缩放)。这个不一致性是初学者常见的 bug 来源。Inverted Dropout(训练时除以保留概率)通过让推理时不做任何操作来解决这个问题。另外,权重初始化如果标准差设置不当,会导致梯度消失或梯度爆炸。
概念关系图谱
| 概念 | 核心含义 | 与AI的关系 | 关联概念 |
|---|---|---|---|
| 随机变量 X | 从样本空间到实数的映射 | 数据特征、模型参数都是随机变量的观测 | PMF、PDF、CDF |
| 离散随机变量 | 取值有限或可列 | 分类标签(猫/狗)、计数(点击次数) | PMF、伯努利、二项分布 |
| 连续随机变量 | 取值不可列(区间内所有实数) | 图像像素值、权重、梯度值 | PDF、正态分布、均匀分布 |
| PMF | 概率质量函数 f(x)=P(X=x) | 分类器输出的离散概率分布 | 离散随机变量、CDF |
| 概率密度函数,积分为概率 | 生成模型学习的数据密度 | 连续随机变量、CDF | |
| CDF | 累积分布函数 F(x)=P(X≤x) | 分位数计算、置信度校准 | PMF、PDF、逆变换采样 |
| 期望 E[X] | 随机变量的加权平均值 | 损失函数的期望、模型预测的期望 | 方差、大数定律 |
| Dropout噪声 | 伯努利随机变量的结构化应用 | 防止过拟合、近似模型平均 | 伯努利分布、正则化 |
| 权重初始化 | 用特定分布生成随机权重初值 | He/Xavier初始化确保梯度稳定 | 正态分布、均匀分布 |
| 逆变换采样 | 用CDF逆将均匀分布映射到目标分布 | GAN生成器、reparameterization trick | CDF、均匀分布 |
重点答疑
Q1: PDF的值为什么可以大于1?概率不是不能大于1吗?
这是最常被问的问题!PDF(概率密度函数)在某一点的值不是概率,而是"概率密度"。打个比方:一根绳子的"质量密度"可以很高(比如铁比棉花密度大),但一小段的质量永远是密度乘以长度。同理,概率 = PDF值 × 区间宽度(积分)。单点概率永远是 0(因为区间宽度为 0)。所以 PDF > 1 完全合法,比如 U(0, 0.5) 的 PDF 恒为 2。只要整体积分等于 1 就满足概率公理。
Q2: 离散和连续随机变量有什么本质区别?
核心区别在于"概率如何分配":离散随机变量把总概率 1 分配到可数个"点"上(用 PMF),每个点有非零概率;连续随机变量把总概率 1 分配到不可数的"连续区域"上(用 PDF),任何单点的概率都是 0,只有区间才有非零概率。这个区别看似微小,实则影响深远——离散可以用求和(Σ),连续必须用积分(∫),而且离散的 CDF 是阶梯状的,连续的是平滑曲线。
Q3: 为什么 Dropout 训练时要除以 keep_prob(Inverted Dropout)?
如果不除,训练时神经元的输出均值会变成原来的 keep_prob 倍(因为有些神经元被关掉了)。推理时所有神经元都在,输出会比训练时大。为了让训练和推理的行为一致,训练时把保留的神经元输出除以 keep_prob(放大),这样训练时的期望输出和推理时一致。推理时就不需要任何特殊处理,直接使用完整的网络即可。
Q4: 为什么连续随机变量单点概率为 0,但 PDF 却能描述整个分布?
这是一个深刻的数学问题。在实数轴上,任何一个"点"的测度(长度)为 0。概率可以理解为"密度 × 长度"——当长度为 0 时,无论密度多大,概率都是 0。但 PDF 通过积分可以恢复任意区间的概率:P(a<X<b) = ∫_a^b f(x)dx。打个比方:你不能问"一根绳子在某一点的重量",因为一个点没有长度,绳子重量为 0。但你知道绳子的"线密度"(每米多少克),乘上长度就是重量。PDF 就是概率的"线密度"。
Q5: 混合随机变量是什么?实际中有哪些例子?
混合随机变量(Mixed Random Variable)是既非纯离散也非纯连续的随机变量——它的 CDF 既有阶梯又有连续部分。经典例子:①降雨量——精确的 0mm(不下雨,离散的概率质量)和连续的降雨量(>0mm 时);②保险理赔金额——精确的 0 元(不出险,离散概率)和连续的理赔金额(出险后);③ReLU 激活函数的输出——精确的 0(输入为负时,离散概率)和连续的激活值(输入为正时)。混合随机变量的 CDF 是阶梯函数和连续函数的组合,处理起来比纯离散或纯连续复杂。
章节单词汇总
| 英文 | 音标 | 术语/释义 |
|---|---|---|
| Random Variable | /ˈrændəm ˈveriəbəl/ | 随机变量,样本空间到实数的映射 |
| Discrete | /dɪˈskriːt/ | 离散的,取值有限或可列 |
| Continuous | /kənˈtɪnjuəs/ | 连续的,取值不可列 |
| PMF | /piː em ef/ | 概率质量函数,离散随机变量的概率分布 |
| /piː diː ef/ | 概率密度函数,连续随机变量的概率分布 | |
| CDF | /siː diː ef/ | 累积分布函数,P(X≤x) |
| Bernoulli | /bərˈnuːli/ | 伯努利,0-1二值随机变量 |
| Binomial | /baɪˈnoʊmiəl/ | 二项分布,n次伯努利试验的成功次数 |
| Dropout | /drɑːpaʊt/ | 随机丢弃神经元,深度学习正则化技术 |
| Inverse Transform Sampling | /ɪnˈvɜːrs trænsˈfɔːrm ˈsæmplɪŋ/ | 逆变换采样,用均匀分布生成任意分布 |
| Expected Value | /ɪkˈspektɪd ˈvæljuː/ | 期望值,随机变量的加权平均 |
| Support | /səˈpɔːrt/ | 支撑集,随机变量概率非零的取值集合 |
| He Initialization | /hiː ɪˌnɪʃəlaɪˈzeɪʃən/ | He初始化,针对ReLU的正态分布权重初始化 |
| Xavier Initialization | /ˈzeɪviər ɪˌnɪʃəlaɪˈzeɪʃən/ | Xavier初始化,保持方差一致的初始化方法 |
面试练习
Q1 [单选] 以下哪项关于 PDF 的说法是正确的?
- A. PDF 在某一点的值就是该点的概率
- B. PDF 的值必须在 0 到 1 之间
- C. PDF 在区间上积分得到概率
- D. PDF 只适用于离散随机变量
解答:PDF 通过积分得到概率:P(a<X<b)=∫_a^b f(x)dx。A 错误,单点概率为 0。B 错误,密度值可以大于 1。D 错误,PDF 用于连续随机变量。
Q2 [单选] 一个随机变量 X 的 CDF 为 F(x),则 P(a<X≤b) 等于?
- A. F(a) - F(b)
- B. F(b) - F(a)
- C. f(b) - f(a)
- D. F(a) + F(b)
解答:P(a<X≤b) = P(X≤b) - P(X≤a) = F(b) - F(a)。CDF 的核心用途之一就是计算区间概率。
Q3 [多选] 关于随机变量,以下哪些说法是正确的?
- A. 随机变量本质是一个从样本空间到实数的函数
- B. 离散随机变量的 PMF 之和等于 1
- C. 连续随机变量某一点的概率为 0
- D. CDF 只适用于连续随机变量
解答:A 正确,随机变量的严格定义是函数 X: Ω→R。B 正确,PMF 是概率的完整分配。C 正确,连续随机变量单点概率为 0。D 错误,CDF 对所有随机变量统一适用。
Q4 [单选] 在 Inverted Dropout 中,训练时保留的神经元输出需要怎么做?
- A. 什么都不做
- B. 乘以保留概率 keep_prob
- C. 除以保留概率 keep_prob
- D. 乘以 (1-keep_prob)
解答:除以 keep_prob 使得训练时的期望输出保持不变。例如保留概率 0.5,则保留的神经元输出变为原来的 2 倍,这样平均下来和原始输出一致。
Q5 [单选] 一个连续随机变量 X 的 PDF 为 f(x) = 2x(0<x<1),则 P(0.2<X<0.6) 等于?
- A. 0.2
- B. 0.16
- C. 0.32
- D. 0.64
解答:P(0.2<X<0.6) = ∫{0.2}^{0.6} 2x dx = [x²]{0.2}^{0.6} = 0.36 - 0.04 = 0.32。注意验证 f(x) 在 [0,1] 上的积分 = ∫_0^1 2x dx = 1,是合法的 PDF。
Q6 [多选] 关于逆变换采样,以下哪些是正确的?
- A. 它利用 CDF 的反函数将均匀分布转换为目标分布
- B. 它可以用来生成任意已知CDF逆函数的分布的随机数
- C. 它只能生成正态分布的随机数
- D. 它基于 Y=F^{-1}(U) 当 U~Uniform(0,1) 时 Y 的分布为 F
解答:A、B、D 正确。C 错误,它可以生成任意已知 CDF 反函数的分布,不限于正态分布。
Q7 [单选] 关于二项分布 Binomial(n, p),当 n=1 时它退化为?
- A. 正态分布
- B. 伯努利分布
- C. 泊松分布
- D. 均匀分布
解答:Binomial(1, p) 只有两个可能取值 0 和 1,P(X=1)=p,P(X=0)=1-p,这正是伯努利分布 Bernoulli(p) 的定义。
Q8 [多选] 以下哪些是随机变量在 AI 中的实际应用?
- A. Dropout 中使用伯努利随机变量决定神经元保留与否
- B. 神经网络权重初始化使用正态分布或均匀分布
- C. 数据增强中给图像添加高斯噪声作为随机扰动
- D. VAE 的编码器输出潜在变量分布的参数(如 μ 和 σ)
解答:以上全部都是随机变量在 AI 中的实际应用。Dropout(伯努利)、权重初始化(正态/均匀)、数据增强(高斯噪声)、VAE 重参数化(正态)都涉及具体分布的随机变量。
Q9 [单选] 如果 X 是一个连续随机变量,那么 P(X=π) 等于?
- A. f(π),即 PDF 在 π 处的值
- B. 无法确定
- C. 0
- D. F(π),即 CDF 在 π 处的值
解答:对于连续随机变量,任何一个具体值的概率都是 0,因为"点"在连续空间中没有"长度"。概率是通过积分求的,而 ∫_π^π f(x)dx = 0。
Q10 [多选] 关于 CDF 的性质,正确的有?
- A. F(-∞) = 0, F(+∞) = 1
- B. F(x) 单调不减
- C. F(x) 的值可以大于 1
- D. 对于任何随机变量(离散/连续/混合),CDF 都有定义
解答:CDF 是概率的累积,从 0 开始单调递增到 1,不可能大于 1。它对所有类型的随机变量都适用,这是它相对于 PMF/PDF 的优势。