データが主食

データ系エンジニアのぽえむ。分析だったり、読んだ本のメモだったり。

「データ分析の力 因果関係に迫る思考法」のつまみ食い

はじめに

ビッグデータの分析基盤を仕事にしていると、いやでもデータ分析手法に興味が湧きます。 論文を読んでも良いのですが、ビジネスで定着するか不明な最新手法が知りたいというよりも、今後ビジネスで定着すると(著者が)思っている 手法を知る方が、技術者にとってはメリットがあります。 言い訳がましいですが、そういう時には新書などがちょうど良いですね。

今回は、「データ分析の力 因果関係に迫る思考法」を読んでみます。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

第1章(なぜデータから因果関係を導くのは難しいのか)

最初は、因果関係分析の難しさの説明からです。

理由

  1. 他の要因が影響していた可能性がある

    「XがYに影響を与えた」という因果関係を示すことが難しい一番の理由は、「Yが変化したのはX以外の他の要因の影響だったのでは?」という問題を排除できない

  2. 逆の因果だった可能性がある

    XとYに相関関係があることがわかっても、その結果を用いて因果関係があるとは言えない

新聞やテレビで主張されていることの多くは、相関関係を誤って解釈して因果関係のごとく示されているものなのです。

第2章(現実の世界で「実際に実験をしてしまう」ーランダム化比較実験(RCT))

これは、いわゆる A/Bテスト の話ですね。

下図のような「介入効果」を計測したいが、「介入する」と「介入しない」は同時に成立せず、一人の実験対象だけでは「介入効果」を計測できません。

f:id:ktr89:20181027161954p:plain

そこで、実験対象を複数用意し、「介入グループ」と「比較グループ」に分割し「平均介入効果(Average Treatment Effect)」を計測することになります。

f:id:ktr89:20181027162414p:plain

このRCT、いわゆるA/Bテストを実行する際の間違い例として自己選抜があります。

自己選抜によって形成されてしまった介入グループと比較グループは、様々な面で非常に違った特性を持つグループである可能性が高くなります。

f:id:ktr89:20181027162929p:plain

本では、電力料金での実験結果や選挙マーケティングでの実験結果などが紹介されています。 万能かと思われるRCTですが、問題点があります。

実施にあたって費用・労力・各機関の協力が必要になること

第3章(「境界線」を賢く使うRDデザイン)

一方、本章から説明していく自然実験という手法は、データ分析者の手によって人工的に実験を行うわけではありませ ん。むしろ、何らかの理由で実験のような設定が生じた、という状況を生かす手法です。

ここでは、Regression Discontinuity Design(回帰不連続設計法)を医療費の負担割合を例に紹介してあります。 日本の医療費負担は70才を境に、自己負担比率が変わります。この自己負担比率の違いが、通院回数にどの程度影響するのか?というのが問題です。 当たり前ですが、人々をランダムに分割し、自己負担比率を変更することはできません。

f:id:ktr89:20181027164759p:plain

収集したデータをプロットすると上のような図が得られるそうです。

70歳の誕生日を迎えたとたんに、突然健康状態が変化するということは考えにくいので、医学的な要因以外の何かが関連しているのでは、という推測がつきます。

という仮説から、自己負担比率の違いがこの不連続生を生んでいるという推論ができます。つまり

70歳の誕生日を迎えたとたんに、突然健康状態が変化するということは考えにくいので、医学的な要因以外の何かが関連しているのでは、という推測がつきます。

第4章(「階段状の変化」を賢く使う集積分析)

ここでは、集積分析(Bunching Analysis)を所得税率分析を例に紹介してあります。

日本の燃費規制では、自動車重量が大きくなると燃費が悪くても良いという規制があります。これは、下図のように階段状の規制になっています。 この階段状の規制のせいで、階段の少し上の値にたくさんの自動車が集まっていることがわかります。

f:id:ktr89:20181027170302p:plain

では、ここから何が分析できるのでしょうか? 階段の近傍をみてみると、下の図のようになります。階段状の規制がない場合には、連続的な曲線になることが自然な発想です。 しかし、先ほどの図のように階段の少し右側に山ができます。この山、は規制緩和のために無駄に車両重量を増やしたということです。 この無駄重量を計測することで、この政策の妥当性を検討できます。

f:id:ktr89:20181027170532p:plain

第5章(「複数期間のデータ」を生かすパネル・データ分析)

ここでは、デンマークの所得税率を例に、パネル・データ分析を紹介してあります。

デンマークでは1991年に税制改革があり、年間所得が10 万3000クローネ( 約1200万 円)を超える外国人労働者の所得税が、以前に比べ て大幅に低くなりました。政府はこの新しい政策によって、優秀な外国人労働者を国内に呼び込もうとしたのです。一方、年間所得が10万3000クローネ未満の外国人に対する所得税の変更はありませんでした。

という状況のもと、外国人労働者の人数推移が下図です。たしかに、所得税率が下がっている介入グループの人数が増えていることがわかります。

f:id:ktr89:20181027171240p:plain

所感

第6,7章では新しい分析手法の紹介はないため、省略します。

因果分析の分野は近年とても盛り上がっていますが、新書レベルでここまで納得感が得られるとは思いませんでした。 本ブログでは省略しましたが、各分析を利用する際の前提・リミテーションなどもちゃんと書いてあって好感が持てます。 この本では、平均介入効果を扱っていますが、最近では個別介入効果(Individual Treatment Effect)というキーワードも盛り上がっているようで、そちらも勉強してみたいと思いました。

因果といえば、以前「従業員の給料をあげる→企業の売り上げが伸びる」という笑い話を上司にしたところ、上司も笑ってくれて安心したのを思い出しました。 (全然関係ないですね笑) とてもいい本なので、ぜひ読んでみてください。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)