文章目录

1 文献阅读-Individual Calibration with Randomized Forecasting
2 本文的背景
3 什么叫做calibrate？什么叫做miscalibrate？
4 以往的方法如何实现calibrate？有哪些不足？
5 本文在何种假设下如何实现calibrate？实现方法的主要思想是什么？
6 实验结果分析
- 6.1 PERFORMANCE METRICS
- - 6.1.1 Sharpness metrics
  - 6.1.2 Calibration metrics
背景知识
- 1. 逆采样（ inverse CDF）原理
- 2. 似然估计
- - 2.1 负对数似然(negative log-likelihood)
- 3. zero measure （零测度）
- 4. empirical risk minimization（经验风险最小化）

1 文献阅读-Individual Calibration with Randomized Forecasting

2 本文的背景

Many applications of machine learning, such as safety-critical systems and medical diagnosis, require accurate estimation of the uncertainty associated with each prediction. Uncertainty is typically represented using a probability distribution on the possible outcomes. To reflect the underlying uncertainty, these probabilities should be calibrated (Cesa-Bianchi & Lugosi, 2006; Vovk et al., 2005; Guo et al., 2017). In the regression setup, for example, the true outcome should be below the predicted 50% quantile (median) roughly 50% of the times (Kuleshov et al., 2018).
机器学习的许多应用，如安全关键系统和医疗诊断，都要求准确估计与每个预测相关的不确定性。不确定性通常用可能结果的概率分布来表示。为了反映潜在的不确定性，这些概率应该被校准。例如，在回归设置中，大约50%的时间内，真实结果应该低于预测的50%分位数(中位数)。

3 什么叫做calibrate？什么叫做miscalibrate？

calibrate被称为校准，目的是使模型输出在某指定组别（体现在特征列的某些特征值）上都能实现公平，公平体现在不会使该组被模型预测的值不会大量低于或高于真实标签的值。

理想的calibration：能使一般的预测值大于真实标签值，另一半的的预测值低于真实标签值。当一群预测值不能被真实标签值均匀地分成55开的话，我们称为这是miscalibration现象。

我们通过一个例子来说明什么是 calibrate：
在一个分类任务中，预测模型对样本中某一组包含属性值为“男性”的subgroup的预测概率，总是低于对于“女性的预测概率”，那么，这里就存在对于 group 的 miscalibrate。但是，对于所有样本的整体而言，这里满足我们传统意义上的calibration：对于所有样本的 average calibration。

另外一个例子：
For example, a bank might over-predict credit risk for one gender group and unfairly deny loans, or under-predict credit risk for a group that can then exploit this mistake to their advantage.
这里说明在一个贷款评估预测系统中，模型可能会对某一性别的群体造成整体过高或过低地预测输出。

4 以往的方法如何实现calibrate？有哪些不足？

以前的 calibration 仅限于 average calibration，即所有样本整体满足50%的预测值低于真实标签值，这样非常容易使得某些包含了不同特征值的群体享受到不同的校准水平——有些群体总是会被过高或过低地预测。
Toward this end，(Kleinberg et al., 2016) ，其强调了average calibration的缺点，并提出了针对特定群体的 Group calibration。但是这种方法仅限于可以辨识的群体，例如某特征明确表明这是女性或男性；当某一类群体没有被意识到出现了miscalibrate，抑或某一类群体不能用明确的特征值概括分类，这样的Group calibration就会失效。（For example, groups can be defined by features that are unobserved e.g. due to personal privacy.）

Towards this end，本文提出了 individual sample，即针对每一样本都进行校准，有效地克服了 Group calibration中对 vague（含糊不清；难以界定）的组别的无法校准问题。此外，本方法还可以让模型每次预测的水平不一样，因为输入变量有：数据集样本+一个随机数，这个输入的随机数会控制模型输出的浮动。Intuitively, a randomized forecaster can output random probabilistic forecasts (e.g., quantiles)
— it is the predicted quantile that is randomly above or below a fixed true value with the advertised probability (see Figure 1).

5 本文在何种假设下如何实现calibrate？实现方法的主要思想是什么？

6 实验结果分析

6.1 PERFORMANCE METRICS

根据文章前面提到的，一个校准器应该由两个指标衡量，分别是：Sharpness metrics 和 Calibration metrics，前者反映模型输出是否和真实值的接近程度，后者描述了随机校准的随机程度（在某一区间越随机，越可以实现50%的预测值低于或高于真实值，校准的效果越好）

6.1.1 Sharpness metrics

我们采用negative log likelihood—— E [ − log ⁡ h ˉ ( X , R ) ( Y ) ] \mathbb{E}[-\log \bar{h}\mathbf{(X,R)(Y)} ] E[−loghˉ(X,R)(Y)]，对于
negative log likelihood 相关性质见知识背景节。

6.1.2 Calibration metrics

根据原文中的 Adversarial Group Calibration 的校准的定义：

我们可以结合文章理解得到：对于数据量很少的group，即 δ \delta δ 越小， ϵ \epsilon ϵ 理应充分大，以保证小的组类能得到很好的校准（因为小的组一般更容易出现miscalibration）。

背景知识

1. 逆采样（ inverse CDF）原理

如何基于累积分布函数（CDF）去采的n个x的样本集？（通过均匀采样某随机变量的CDF函数）

https://blog.csdn/anshuai_aw1/article/details/84840446

2. 似然估计

在给定参数值的情况下，概率用于描述未来出现某种情况的观测数据的可信度。
在给定观测数据的情况下，似然用于描述参数值的可信度。

可以这么说：概率用于在已知参数的情况下，预测接下来的观测结果；似然性用于根据一些观测结果，估计给定模型的参数可能值。

在给定观测数据的情况下，某个参数值有多个取值可能，但是如果存在某个参数值，使其对应的似然值最大，那就说明这个值就是该参数最可信的参数值！

https://blog.csdn/jh1137921986/article/details/89000994?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-0&spm=1001.2101.3001.4242

2.1 负对数似然(negative log-likelihood)

公式： L ( y ) = − l o g ( y ) L(y)=-log(y) L(y)=−log(y) ，L表示似然函数

是不是让大家想起了多分类的交叉熵（损失熵、损失函数）—— l o s s ( x ) = − ∑ i = 0 n y t r u e l o g ( f n ( x ) ) loss(x)=- \sum_{i=0}^n y^{true}log(f_n(x)) loss(x)=−∑i=0nytruelog(fn(x))，其中，log一般用ln来代入计算。

我们来看一下负对数似然函数的图像：

在本文中，negative log likelihood 可以用来衡量 E [ − log ⁡ h ˉ ( X , R ) ( Y ) ] \mathbb{E}[-\log \bar{h} (\textbf{X},\textbf{R})(\textbf{Y})] E[−loghˉ(X,R)(Y)]，注意 h ˉ ( X , R ) ( Y ) \bar{h} (\textbf{X},\textbf{R})(\textbf{Y}) hˉ(X,R)(Y)这个CDF函数的值域恰好是 [0,1]，因此我们只观察negative log likelihood 函数在[0,1]上的定义域。根据文章意思，当CDF函数值越靠近1，表示 h ˉ ( X , R ) \bar{h} (\textbf{X},\textbf{R}) hˉ(X,R)越接近 Y \textbf{Y} Y

https://blog.csdn/silver1225/article/details/88914652

3. zero measure （零测度）

测度论涉及泛函分析

测度：

https://www.zhihu/question/24488491

零测度：

某集合测度为0

有理数测度为0：因为有理数是可数集合,可数集合的测度都为0,因为有理数之外只剩无理数了,所以[0,1]上无理数的测度就为1了。

4. empirical risk minimization（经验风险最小化）

在假设空间、损失函数以及训练集确定的情况下，经验风险函数就可以确定。假设给定一个数据集：

T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n) \} T={(x1,y1),(x2,y2),...,(xn,yn)}

模型f(x)关于训练数据集的平均损失成为经验风险或经验损失：

R e m p = ( f ) = 1 N ∑ i = 0 N L o s s ( y i t r u e , f ( x i ) ) R_{emp}=(f)=\frac{1}{N} \sum_{i=0}^{N}Loss(y^{true}_{i},f(x_{i})) Remp=(f)=N1∑i=0NLoss(yitrue,f(xi))

经验风险是模型关于训练样本集的平均损失。

https://baike.baidu/item/%E7%BB%8F%E9%AA%8C%E9%A3%8E%E9%99%A9%E6%9C%80%E5%B0%8F%E5%8C%96/22768178?fr=aladdin

更多推荐

文献阅读--Individual Calibration with Randomized Forecasting