Håvard Hegre, Nils W Metternich, Håvard Mokleiv Nygård, Julian Wucherpfennig.
"Introduction: Forecasting in peace research"
Journal of Peace Research 2017; 54(2): pp.113-124.
「予測」の定義
「予測」は、現実のデータから推定モデルを構築し、まだ生じていない現象を出力することと定義されます。
統計学の専門的な表現を用いると、実現された結果と実現されていない結果に対し、確率分布を割り当てることと表現できます。
「予測」の問題点
政治学や平和研究の成果から、今後の世界情勢を見通すことが期待されており、その意味で「予測」の価値は高まっています。
しかし、予測精度を評価する標準的な方法がないため、現状、透明性や再現性を欠くという大きな問題を抱えています。
「予測」の歴史
これまでの取り組みを俯瞰するため、政治学・平和研究における「予測」の歴史を振り返ってみます。
第Ⅰ期(1960年代~1980年代初期)
Correlates of War Projectの影響を強く受け、戦争に関する科学的な知見を蓄積するようになりました。
その後、Azar (1980)や、McClelland & Hoggard (1968)らの成果によって、武力紛争に対しリアルタイムかつ早い段階で警鐘を鳴らすために、十分なデータを収集するテンプレートが開発されました。
しかし、紛争予測に対する取り組みは一旦停滞し、1970年代から1980年代初期にかけて、あまり行われていません。
第Ⅱ期(1980年代~2000年代)
この時期には2つの重要な発明がありました。
1つ目はBueno de Mesquita (1980, 1983, 1984)が、国内外の政治的イベントから、武力衝突を予測するためのゲーム理論モデルを構築したことです。
2つ目はSchrodt (1988, 1991)が、大量のニュース情報から武力衝突を予測するための統計モデルを構築したことです。
またSchrodtは、人工知能(AI)や機械学習の手法も導入しました。
さらにSchrodt, Davis & Weddle (1994)では、ニュース記事から政治イベントを自動抽出・分類するアルゴリズムが開発され、予測のために質の高い独立変数・従属変数が利用できるようになりました。
これ以降、Correlates of War Projectが集めた年単位のデータではなく、月・週・日単位のデータを使用して、よりリアルタイム性の高い予測を立てることが可能になりました。
第Ⅲ期(2010年~現在)
紛争予測は政府の関心を集め、国家主導のプロジェクトが主体となります。
アメリカ合衆国政府の資金によるPITF (Political Instability Task Force、SFTF: State Failure Task Forceから改称した)は、政治的不安定状態をそれが生じる2年前から予測することを目標としました。
政治的不安定状態とは、紛争だけでなく、武力衝突から政変・革命までを広く含む概念です。
このプロジェクトは一定の成果を挙げ、以降、紛争研究の分野では「予測」が主流の研究目的となっています。
理論の評価に対する予測の効用
従来の政治学・平和研究の基本的なアプローチでは、理論(仮説)を構築し、それが正しいと言えるかを仮説検定により判断していました。
仮説をデータと照らし合わせて得られるp値が十分に小さい時、その仮説は有意であると判断されます。
しかしこれに関し、Ward, Greenhill & Bakke (2010)では、かつて主流だったp値にもとづく統計的アプローチよりも、予測モデルの精度を検証する方が、評価研究として優れていると評価しました。
なぜならば、p値による統計的な分析は、あまり重要ではない変数を量産する傾向にあるためです。
その理由として、p値はサンプルサイズが増えると有意になりやくなることが挙げられます。
よって、近年注目されているビッグデータを利用した分析を行うと、悲惨なことになると予想できます。
そこで、これまでp値で評価されてきた変数の有用性を、「その変数が現象を予測できるか」の観点から判断することが提唱されています。
つまり、理論から導き出された変数が高い予測能力を示す場合、その変数は有意義であると判断され、ひいてはその理論(モデル)が役に立つことが示されます。
このとき、変数のより少ないモデル(倹約モデル)の方が、実用的であることは言うまでもありません。
以上より、現象の説明には予測が伴わねばならないし、解釈性が限られている予測の精度を上げるためには、現象の説明を必要とするという、「理論」と「予測」の関係について見ることができます。
「説明」と「予測」のトレードオフ
・予測能力のみに焦点を当てる場合や、データが作られる方法に注意を払わない場合に生じる
・機械学習で特に生じやすい
1.改善すべき個所を見つけにくい
2.予測された未来を避ける方法を示しにくい
・理論を説明するために予測を用いれば、モデルはシンプルになり、改善もしやすい
「予測」の実用化について
・以下の2種類の見解がある
1.予測されたパワーシフトが生じる前に紛争を起こす誘因が働き、当初の予測は機能しない
2.戦争の損害は低く見積もられる傾向にあるが、予測を示すことにより攻撃を控えるようになる
・予測の手法と技術に関する透明性と共有が、予測の悪用を防止する
「予測」の展望
・「予測」に対する共通の評価法が必要である。ただし、p値を用いるべきではない
1.過学習を避けるため、サンプル外の事象に対する予測精度を調べる
2.Brier score、ROCカーブ、PRカーブなどの評価法を組み合わせる。モンテカルロ法の実施も有用である
3.手法の透明性と再現性を高める
4.政治家に対し、結果を視覚的に示す
・Flexible・教師なし学習の事後解釈性を高める必要がある
・ACLED、UCDP-GEDのデータは有用
→ViEWSが効果的に利用している
・紛争データ構成の標準的な手法が必要となる
・欠損データの処理に関して、予測の技術が使えるのではないか?
Interesting Keywords
・Dynamic simulation(Hegre et al.(2013), Hegre, Nygard & Raeder (2017))
→"Black Swan"の予測(Black Swanが小規模イベントの寄せ集めであるとすれば)。ViEWS project.
Impressions
「予測」の可能性について示し、その標準的な評価法の必要性を説いたレビュー論文。p値による統計的評価一辺倒の科学に、「予測」は実用性の高い方法論を提供することだろう。Referenceのうち、Do the robotは非常に気になったので、なんとか入手したい。
Comments