「明日の天気、どうなるかな?」と考えるとき、皆さんは何を参考にしますか? 今日の天気? それとも、昨日やおとといの天気まで遡って考えますか?
もし、「明日の天気は、今日の天気が晴れか雨かだけで決まるんだよ。昨日がどうだったかは関係ない」と言われたら、少しシンプルすぎると感じるかもしれません。でも、AIや確率の世界には、まさにこのように「未来のことは、現在の状態だけを見て決める」という考え方があるんです。
それが、今回ご紹介するマルコフ性です。一見単純なこの性質が、実は天気予報からスマートフォンの予測変換、さらにはAIが自分で学習していく「強化学習」という技術まで、様々な分野で非常に重要な役割を果たしています。
この記事では、AIを学ぶ上で欠かせない「マルコフ性」とは何か、なぜ重要なのか、そしてG検定対策としてどこを押さえるべきかを、具体例や図解(のイメージ)を交えながら、初学者の方にも分かりやすく解説していきます!
マルコフ性とは?~驚くほどシンプルな未来予測のルール~
定義:未来は「現在の状態のみ」で決まる!
ズバリ、マルコフ性とはこういう性質です。
マルコフ性とは確率過程の特性で、未来の状態が過去の履歴に依存せず「現在の状態のみ」で決定される性質です。
つまり、あるシステムや現象の次の状態がどうなるかの確率は、それまでの経緯(過去の履歴)がどうであったかに関係なく、たった今現在の状態だけで決まる、ということです。
ポイントは「記憶なし性」
この性質は、過去の情報を「覚えていない」かのように振る舞うことから、「記憶なし性(Memorylessness)」 とも呼ばれます。まるで、システムが次のステップに進むたびに、それまでのことを忘れてしまうかのようです。この「シンプルさ」が、複雑な現象をモデル化しやすくする鍵となります。
数式で理解するマルコフ性
マルコフ性を数式で表現すると、以下のようになります。
時刻 t における状態を Xt とします。未来の時刻 t+1 の状態 Xt+1 がある特定の値 xt+1 になる確率を考えます。このとき、現在までのすべての履歴(Xt=xt,Xt−1=xt−1,…,X0=x0)が分かっているという条件の下での確率は、
P(Xt+1=xt+1∣Xt=xt,Xt−1=xt−1,…,X0=x0)
と書けます。しかし、マルコフ性を持つ場合、この確率は現在の状態 Xt=xt だけで決まるので、
P(Xt+1=xt+1∣Xt=xt,Xt−1=xt−1,…,X0=x0)=P(Xt+1=xt+1∣Xt=xt)
と、非常にシンプルな形で表すことができます。
(読むのが難しい!という方は、「未来の確率を知るには、過去全部の情報じゃなくて、今の情報だけでOK!」 と覚えておけば大丈夫です。)
イメージを掴もう!マルコフ性の具体例
- 天気予報(簡易版): もし「明日の天気が晴れる確率は、今日の天気が晴れなら70%、雨なら40%」というルールだけで決まるなら、これはマルコフ性を持つモデルです。昨日が大雨だったとしても、今日が晴れなら明日の晴れる確率は70%となります。(実際の天気はもっと複雑ですが、単純化するとこう考えられます)
- すごろく: サイコロを振ってコマを進めるすごろくも、マルコフ性の良い例です。次にどのマスに進むかは、今いるマスの番号とサイコロの目だけで決まりますよね? 1回前にどのマスにいたか、どんな目が出たかは、次の移動には全く関係ありません。
- Webページの閲覧: あなたが今見ているWebページから、次にどのリンクをクリックして別のページに移るか、という行動も、多くの場合「今見ているページの内容」に依存すると考えられます。5ページ前に何を見ていたかは、あまり関係ないかもしれません。(もちろん、厳密には興味の連続性などありますが、単純なモデルとしてはマルコフ性が仮定されることがあります)
マルコフ性をもう少し深掘り
マルコフ過程とマルコフ連鎖
マルコフ性を持つ確率的なプロセス全体をマルコフ過程と呼びます。特に、状態が離散的(例:「晴れ」「雨」「曇り」や、すごろくのマス目など、飛び飛びの値をとる)なマルコフ過程はマルコフ連鎖と呼ばれ、非常によく使われるモデルです。
マルコフ連鎖では、ある状態から別の状態へどれくらいの確率で移り変わるか(遷移するか)を表す遷移確率が重要になります。
例えば、「晴れ」と「雨」の2つの状態があるとします。「晴れ」の状態から次も「晴れ」になる確率が矢印と共に 0.7、「晴れ」から「雨」になる確率が 0.3 と示されます。同様に、「雨」から「晴れ」になる確率(例: 0.4)、「雨」から次も「雨」になる確率(例: 0.6)も矢印で示します。各状態から出る矢印の確率を合計すると1 (100%) になります。この図を見ると、過去の状態がどうであれ、現在の状態(晴れか雨か)さえ分かれば、次の状態の確率が分かることが視覚的に理解できます。
強化学習の「核」となるマルコフ決定過程(MDP)
マルコフ性は、AIの中でも特に強化学習という分野で非常に重要な役割を果たします。強化学習は、AIエージェント(ロボットやプログラムなど)が試行錯誤を通じて、目標達成のために最適な行動を学習していく手法です。この強化学習の理論的な枠組みとして使われるのがマルコフ決定過程(Markov Decision Process, MDP) です。
MDPとは?~意思決定をモデル化する~
MDPは、マルコフ性を前提とした「意思決定」の数学的なモデルです。エージェントが置かれている状況を状態(State)、エージェントが取れる行動を行動(Action)、行動によって得られるご褒美やペナルティを報酬(Reward)、そしてある状態で特定の行動を取ったときに次の状態へどれくらいの確率で遷移するかを示す遷移確率(Transition Probability) で構成されます。
図の説明: 円で「状態(S)」、状態から出る矢印の先にある四角で「行動(A)」、行動の結果として再び状態へ向かう矢印に「遷移確率(P)」と「報酬(R)」が付随する形で描かれます。エージェントは現在の状態 S を認識し、行動 A を選択します。すると、環境は遷移確率 P に基づいて次の状態 S’ を決定し、同時に報酬 R をエージェントに与えます。この「状態→行動→次の状態&報酬」というサイクルが繰り返される様子を図示します。
なぜ強化学習でマルコフ性が重要なのか?
強化学習では、エージェントは将来にわたって得られる報酬の合計を最大化するように行動を学習します。ここでマルコフ性が効いてきます。
MDPでは、「ある状態で特定の行動をとったときに、次にどの状態になり、どれくらいの報酬が得られるか」は、現在の状態と選択した行動のみに依存します(マルコフ性)。過去の長い履歴をすべて考慮する必要がないため、問題をシンプルに捉え、数学的に扱いやすくするのです。
このおかげで、特定の状態や「状態と行動のペア」が将来どれくらい良い結果をもたらすかを示す価値関数(Value Function) を効率的に計算したり、最適な行動ルールである方策(Policy) を学習したりすることが可能になります。
【G検定対策】マルコフ性、ここを押さえて合格へ!
G検定のシラバスにおいて、マルコフ性は強化学習の基礎理論を理解する上で必須の概念です。以下の点をしっかり押さえましょう。
- マルコフ性の定義: 未来の状態は現在の状態のみに依存し、過去の履歴には依存しない「記憶なし性」。
- マルコフ決定過程(MDP): 強化学習の基本的な枠組みであり、状態、行動、報酬、遷移確率で構成されること。MDPがマルコフ性を前提としていること。
- マルコフ性と主要アルゴリズムの関係:
- 価値関数: 状態や行動の価値を評価する上で、マルコフ性が計算の前提となっている。
- 価値反復法・方策反復法: MDPにおいて最適な価値関数や方策を求める代表的なアルゴリズムであり、マルコフ性を利用している。
- Q学習 (強化学習アルゴリズムの一種): 行動価値関数(Q値)を学習する際、マルコフ性を暗黙的に仮定している。
- 方策勾配法: 方策を直接学習する手法群も、多くの場合、MDP(=マルコフ性)を前提としている。
試験では、これらの用語の意味を理解し、マルコフ性が強化学習の多くの手法の「土台」となっていることを認識しておくことが重要です。
こんなところにも!マルコフ性の応用例
マルコフ性は、強化学習以外にも様々な分野で活用されています。
スマートフォンの予測変換
キーボードで文字を入力するとき、次に入力されそうな単語を予測してくれますよね。あれも、「直前に入力された単語(現在の状態)」に基づいて、「次に来る確率が高い単語(次の状態)」を予測する、マルコフ連鎖の考え方が応用されています。
Web広告の効果測定(アトリビューション分析)
ユーザーが商品購入に至るまでに、様々な広告(状態)を経由します。どの広告が購入(最終状態)にどれだけ貢献したかを分析する際に、マルコフモデルが使われることがあります。ある広告から別の広告へ、そして購入へと遷移する確率をモデル化することで、各広告の価値を評価します。
音声認識
私たちが話す言葉は、音の最小単位(音素)が連なってできています。ある音素の次にどの音素が来やすいか、という繋がりをマルコフモデル(特に隠れマルコフモデル)で表現することで、コンピュータが音声を認識し、文字に変換する技術に役立っています。
まとめ:マルコフ性を理解してAIの世界を広げよう
今回は、AI、特に強化学習を理解する上で欠かせない「マルコフ性」について解説しました。
- マルコフ性とは、未来の状態が現在の状態のみで決まる「記憶なし性」。
- この性質により、複雑な現象をシンプルにモデル化できる。
- マルコフ決定過程(MDP)は強化学習の基本的な枠組みであり、マルコフ性がその土台となっている。
- G検定対策としても、マルコフ性の定義、MDP、関連アルゴリズムとの繋がりを理解することが重要。
- 予測変換や広告分析など、身近な技術にも応用されている。
マルコフ性は、一見地味かもしれませんが、AIが賢く振る舞うための重要な考え方の一つです。この記事を通して、マルコフ性の面白さや重要性が少しでも伝われば嬉しいです。
ぜひ、あなたの身の回りにある「これってマルコフ性っぽいかも?」という現象を探してみてください!
この記事に関するご質問やご感想、あるいは「こんな例もマルコフ性?」といった疑問など、お気軽にコメントいただけると嬉しいです!
コメント