「統計的に有意」な差は見た目も「有意」か?

最近ツイッターで「回帰分断デザインのプロットで「有意」な処置効果があるように見えるにはt値はどの程度必要か?」というスレッドを見つけた。
結構面白いなあと思ったので、Rでシミュレーションを再現してみた。

以下がそのRコード。結構簡単。
なお、回帰分断プロットの作図やzスコアの算出にはrdrobustパッケージを利用した。

require(rdrobust)
set.seed(123)
N <- 2000 # number of observations
score <- c(1:2000) - 1000 # running variable
noise <- rnorm(2000)
par(mfrow = c(2, 2))
for (i in c(0.1, 0.3, 1, 2)){
  treatment <- ifelse(score < 0, 0, i)
  outcome <- treatment + noise
  rdplot(outcome, score, 
         title = paste0("z = ", format(rdrobust(outcome, score)$z[3]), digits = 3),
         x.label = "Score", y.label = "Outcome")
}

上記のコードでは、処置効果を大きくしていくことでzスコアを大きくするようにしてある。

さて、出力される図は以下のようになる。

f:id:ike_og:20181219225631p:plain

各プロットの上部に示されているzスコアを見ると、どのプロットにおいても処置効果の推定値は少なくとも10%水準では統計的に有意(左上のプロット以外は1%水準で有意)である。
しかし、図だけで判断すると、上2つのプロットでは処置効果の大きさに比べて従属変数のばらつきが大きいため、「統計的に有意でない」ように見える。
ツイッターで公開されている結果は若干誇張されているようにも思えるが、回帰分断デザインにおいて図を見ただけで処置効果が統計的に有意かどうかを判断するのは危険である、ということはいえるだろう。

しかし学会報告の準備や採点作業で忙しい折、こんなことしていていいのだろうか…。

ikeの日記

しがない研究者の雑記。

「統計的に有意」な差は見た目も「有意」か?