ベイズの定理から見るガン検査

Tue, 12 Nov 2013 03:01:16 JST

http://www.huffingtonpost.jp/2013/11/10/cancer-test_n_4252707.html

高校生がすい臓がん発見の画期的方法を開発したという記事が話題になってます。

この検査法の改善が統計的にどういう意味をもつのか実際にベイズの定理をつかって計算してみます。

ここでは以下のような問題を考えることとします。

あるガン検査法は、被験者ががんの場合はp1の確率で陽性になり、被験者ががんでなければp2の確率で陰性になります。被験者ががん患者である確率がp3のとき、がん患者が検査の結果実際に陽性だと判定される確率を求めなさい。

Xを被検査者はガンであるという事象、Yを検査の結果が被検査者はガンであると示す事象として、それぞれ以下のように置き換えることができます。

ただし、はBが起こったときにAが起こる確率(条件付き確率)、はAが起こらないという事象(補事象)を表します。

求めたい確率はなので、ベイズの定理より

ここでは検査結果が真陽性となる確率と偽陰性となる確率を足したものなので、

また、

なので、

となります。

以上の結果に実際に値をあてはめてみます。

2008年のすい臓がん推定患者数は29584 ¹、同年の人口は127692000 ²なので、p3=0.23168 * 10^-3。また、簡単のためにp1, p2をひとまとめに誤検出の確率と仮定してp1=p2=qおくと、P(Y|X)が70%となるようなqは、q=0.99990となります。

このことから、99.99%の精度をもつ検出方法でも実際には30%も見逃してしまうということがわかります。

さらに、「400倍の精度で検査できる」という部分を誤検出の確率が400分の1になったという意味だと解釈して、 q'=1-(1-q)/400とおいてがん患者が検査の結果実際に陽性だと判定される確率を再度計算するとP(Y|X)=0.99892となります。

つまり30%見逃していたのが1%程度まで減ったということです。これはすばらしい成果といえるのではないでしょうか。

最初は30%も見逃すとかどんなひどい検査だったんだ、などと思ってしまうかもしれませんが、上記の計算で実際はそれほど単純な話ではないことがわかると思います。

国立がん研究センターがん対策情報センター - http://ganjoho.jp/professional/statistics/statistics.html ↩
http://www.e-stat.go.jp/SG1/estat/List.do?lid=000001054002 ↩
この問題は統計学入門の練習問題4.7を参考にしています。 ↩

R Tutorial Part2 Chapter08 (Numerical Measures)

Mon, 28 Oct 2013 02:11:53 JST

これはR Tutorial Part2 Chapter08 (Numerical Measures) のノートです。 slideはこちら。

mean, median

mean: 平均
median: 中央値、中間値。データ数が偶数個の場合は前後の2つの数の平均。

> library(MASS)
> mean(faithful$eruption)
[1] 3.487783
> median(faithful$eruption)
[1] 4

quartile, quantile, percentile

first quartile, lower quartile: ソートされたデータの数を１：３に分ける位置の値。第１四分位
second quartile, median: 中間値
third quartile, upper quartile: 第３四分位
quantile: 変位値
percentile: 百分位数

> quantile(faithful$eruption)
     0%     25%     50%     75%    100% 
1.60000 2.16275 4.00000 4.45425 5.10000 
> x = sort(faithful$eruption)
> x[1+floor((length(x) - 1)/4)] + (x[1+ceiling((length(x) - 1)/4)] - x[1+floor((length(x) - 1)/4)]) * 3 / 4
[1] 2.16275
> quantile(faithful$eruption, c(.32, .57, .98))
    32%     57%     98% 
2.39524 4.13300 4.93300

max, min, range

> max(faithful$eruption)
[1] 5.1
> min(faithful$eruption)
[1] 1.6
> max(faithful$eruption) - min(faithful$eruption)
[1] 3.5

interquartile range

interquartile range: 四分位範囲, upper quartile - lower quartile

> IQR(faithful$eruption)
[1] 2.2915
> x = quantile(faithful$eruption)
> x[4] - x[2]
   75% 
2.2915

box plot

boxplot: 箱ひげ図

> boxplot(faithful$eruption, horizontal=TRUE)

※ 箱のなかの線はmedian

variance, standard deviation

variance: 分散。Rのvar関数は不偏分散
standard deviation: 標準偏差

> var(faithful$eruption)
[1] 1.302728
> sd(faithful$eruption)
[1] 1.141371

> var2 <- function(x) { sum((x - mean(x)) ^ 2) / length(x) }   # 普通の分散
> var2(faithful$eruption)
[1] 1.297939

covariance, correlation coefficient

covariance: 共分散。2 組の対応するデータ間での、平均からの偏差の積の平均値。
correlation coefficient: 相関係数。共分散をそれぞれのデータの標準偏差の積で割ったもの。

> cov(faithful$eruption, faithful$waiting)
[1] 13.97781
> cor(faithful$eruption, faithful$waiting)
[1] 0.9008112

correlation coefficientが1に近いほど正の相関があるといえる

e1071

Functions for latent class analysis, short time Fourier transform, fuzzy clustering, support vector machines, shortest path computation, bagged clustering, naive Bayes classifier

> install.packages('e1071')

http://cran.r-project.org/web/packages/e1071/index.html

central moment

central moment：中心積率。標本分散は2次のcentral moment

> library(e1071)
> moment(faithful$eruption, order=3, center=TRUE)
[1] -0.6149059

skewness, kurtosis

skewness: 歪度。対象性の度合いの指標。一般に、skewness < 0 ならばmean < median でそのデータの分散はleft skewed という。skewness > 0 ならばmean > median でright skewed という。
kurtosis: 尖度。分布の尖り具合の指標。kurtosis < 0 ならフラットな分布になりplatykurtic(緩尖な)という。kurtosis > 0ならとがった分布になりleptokurticという。正規分布の場合は0になりmesokurticという。

> skewness(faithful$eruption)
[1] -0.4135498
> kurtosis(faithful$eruption)
[1] -1.511605

misc

この項は統計でよくつかう関数のまとめになってます
各関数の詳細はhelpを参照

mojavy.com