AIによる未来予測

「AI投信、ただ今学習中」の記事を、日本経済新聞(2018.9.8)で見つけた。
AIを用いた日本株式の運用が、うまく機能していないようだ。

「日経平均が年初来2%安なのに対し、AIが運用する日本株投信の平均はマイナス8%だ」と言う。(約20本の投信が対象)。
AI投信の名誉のために補足すると、アメリカの株などグローバルな投資先を対象とした投信の成績は平均5%のプラスとなっている。
AIは人間が気づかない相関関係を見つけ出し、好成績となる想定だったが、万能とはいかないようだ。

AIが未来を正しく予測するためには、いくつかのハードルを越える必要がある。
アルゴリズム自身の改善もその1つであるが、本ブログではデータ視点でいくつかの課題を挙げる。

1 過学習の問題

AIが学習する際に使う訓練データは母集団から抽出されたデータであるが、その訓練データの特徴に過剰に適合したアルゴリズムを構築することがある。
そのため、実際の予測で使うデータにこのアルゴリズムを適用しても、答えが微妙にずれる。
私事であるが、「京都競馬場の芝1600mはディープインパクトの血統馬が勝率17%」という分析結果を信じたために、何度も痛い目にあっている。これも一種の過学習である。抽出したサンプル数が少なすぎるために発生したと考えている。
(身銭を切って過学習の研究をしているところなど、誰かから褒められても良いのではないかと思うが、家族の対応はいつも冷たい。(笑い))

2 相関関係と因果関係の違い

目的変数と説明変数にたまたま相関関係があったとしても、実世界で起こる事の原因と結果を説明していないこともある。
本質的な因果関係に到達していない相関関係を使うと、予測が間違う場合がある。
コストや時間を気にせず、すべてのデータを集めてすべてのケースに対応するアルゴリズムを見つけることは、理論的には可能かもしれない。それによって、予測の精度が良くなることも想定できる。
現時点では、本質的な因果関係に到達しているかどうかを確かめる別な手段は見つかっていない。(筆者の知る範囲では)。従って、AI予測が当たる確率を明示して、使う側がそのリスクを飲み込むしかないであろう。

3 説明変数の不足

どれほど優秀なアルゴリズム構築法であったとしても、インプットで使う説明変数が不足していたのでは、予測の精度は落ちる。
たとえば、今期の売上金額(目的変数)の着地がいくらになるか予測する際に、現時点から期末までの営業データ(説明変数)がきちんと集まらず不明な地域や品目がある場合などが該当する。

4 過去に全く経験の無い事象(すなわち、訓練データで経験できない事象)

2018.9.8時点では、日本の株価が低迷して、アメリカの株価は調子が良い。その原因の1つは、トランプ大統領の貿易政策である。AIが学習する訓練データには、国際経済に最も影響力のある国の大統領が、必ずしも自国民の総意と言えない個人的価値観やディール手法で、貿易戦争を起こす例はなかったであろう。トランプ氏がどの国を狙って関税引き上げを仕掛けるか、投資家たちは戦々恐々としている状況である。
当たり前のことであるが、過去に全く経験の無い事象に対しては、未来予測は難しい。
AI投信のアルゴリズムが有効に機能する経済局面かどうかは、やはり投資家自身が判断すべきであろう。

まとめ:過去データは未来を語らない

AIは、過去のデータを使って目的変数と説明変数の相関関係を導きだすが、それは過去に起こったことを上手に説明できるようになっただけ、かもしれない。
過去データを使う未来予測は、過去と同じパターンを繰り返す条件が整った場合に正しい答えとなる。異なる条件になった場合は、正しい予測は難しい。
AIが有効に機能するかどうかは、そのAIがどのように実世界を学習したのかを知った上で使う側の人間が判断するしかない。
(投資も競馬もAIを使うときは自己責任でやりましょう(笑い))