最近每天下班後是稍顯疲憊的,就想看看一些談話節目或是二三十分鐘的紀錄片,然後睡覺。

其實有點好奇如果把這些時間用來紀錄一些知識,特別是因果推斷的知識會怎麼樣,之後研究上也可以回顧自己的這些理解。

還有一個問題是、想要了解,如果在一定時間內完成一件好好的小事,對於時間管理會不會再好一點,那就來開始看看接下來這一百天吧。

  1. 讓我們從 Larry Wasserman 的 Causal Inference Note,首先讓了解因果(單向關係不可逆)跟 觀察上的相關性(可雙向關係)的差別:

Case 1. Predict Y after observing \(X = x\) 預測一個結果當我們「觀察」到一個變數

在這個條件中, X \(\leftrightarrow\) Y 兩者有相關性(Correlation) 具體的相關性可以依靠計算相關係數等等統計的方法。

Case 2. Predict Y after setting \(X = x\) 預測一個結果當我們預先「設定」到一個變數

在這個條件中, X (?) Y 我們先設定了X 然後得到了Y. 但是我們沒有做條件控制讓X 不在的時候觀察 Y生成的影響。

即是我們得到了一個

\[P(Y|X)\]

生成模型但是需要同時去干擾 X 的生成機率去判斷 X與Y兩者之間有沒有直接的關係 即為

\[P(Y| P(X)=0)\]

Case 1 比較貼近人類平常思考的方式,比如說,我吃了維他命C (treatment: X),我身體機能健康 (outcome: Y)兩者相關

Case 2 主要關心兩件事情 一是因果效應 即是量化 X 對 Y 的 影響 我們這裡可以用 \(\Theta\) 去表示這個影響的大小 (例如健康食品對人體的效果)這類問題稱為 Causal Effect 因果效應 並且我們可以利用一些條件機率去估計這個影響的大小 統稱為Causal Inference 因果推斷;

二則是 X 與 Y 兩者的關係 究竟是誰 “導致” 誰 \(X \rightarrow Y\) 此類問題稱為因果發現 (Causal Discovery) 這類問題在當代的傳染病學 比較政治學 計量經濟學 是一個很重要的應用問題 例如經濟大蕭條發生及導致致病的基因的原因等等。

  1. 反事實推斷 Counterfactual Inference

當我們主要觀察 Treatment: X 治療(這部分目前沒有恰當的中文翻譯)和結果 Outcome: Y 之間的關係的時候

我們可以假設 X 存在的兩種狀況 即為 X = 0 or 1 並觀察 期望值 E(Y) 的變化

\[E( Y_{0} | X=0)\]

and

\[E( Y_{1} | X=1)\]

特過這個定義我們可以看到 治療效果(Treatment Effect)即為 兩者間E(Y) 期望值的變化

\[\Theta = E( Y_{1}|X=1) - E( Y_{0}|X=0)\]

在此 \(\Theta\) 代表一個非零量化的值於設定X 對 產生Y 的影響

在此我們有著 Lemma 1

\[E(Y_{1}) \neq E(Y|X = 1)\]

and

\[E(Y_{0}) \neq E(Y|X = 0)\]

然而估計 \(\Theta\) 在多數條件下是不可能的 假設我們有一個 \(\mathcal{P}\) 分佈包含 \((X,Y_{0},Y_{1},Y)\).

\[\Theta(P)=E(Y_{1})-E(Y_{0})\]

及每個誤差

\[\epsilon>0\]

我們則可以有一個估計

\[\sup _{P \in \mathcal{P}} P\left(\left|\widehat{\Theta}_{n}-\Theta(P)\right|>\epsilon\right) \rightarrow 0,\]

\(n \rightarrow \infty\).

透過這樣的估計,我們可以慢慢討論一些因果推斷的問題及性質。