DCA算法原理

祁均

2023-12-01

我们先来理解简单的几个概念，只有理解了这些专有词汇，才能够把大数据分析与临床的实际应用结合起来，毕竟发文章只是一种展示科学的一种方式，更高的目标是实施到临床中，挽救更多人的性命，这是一种使命，也是一种责任吧。看定义，如下：

P：给真阳性患者施加干预的受益值（比如用某生化指标预测某患者有癌症，实际也有，予活检，达到了确诊的目的）；

L：给假阳性患者施加干预的损失值（比如预测有癌症，给做了活检，原来只是个增生，白白受了一刀）；

Pi：患者i有癌症的概率，当Pi > Pt时为阳性，给予干预。

所以较为合理的干预的时机是，当且仅当Pi × P >(1 -- Pi) ×
L，即预期的受益高于预期的损失。推导一下可得，Pi > L / ( P + L
)即为合理的干预时机，于是把L / ( P + L )定义为Pi的阈值，即Pt。

但对二元的预测指标来说，如果结果是阳性，则强制Pi=1，阴性则Pi =
0。这样，二元和其他类型的指标就有了可比性。

然后我们还可用这些参数来定义真阳性（A）、假阳性（B）、假阴性（C）、真阴性（D），即：

A：Pi ≥ Pt，实际患病；

B：Pi ≥ Pt，实际不患病；

C：Pi < Pt，实际患病；

D：Pi < Pt，实际不患病。

我们有一个随机抽样的样本，A、B、C、D分别为这四类个体在样本中的比例，则A+B+C+D
= 1。那么，患病率（π）就是A + C了。