強化学習とは？AIの思考を成長させる手法と活用例を紹介

AI（人工知能）構築の基礎となる機械学習の1つ「強化学習」。現代社会で活用されるAIにはなくてはならない技術です。しかし、強化学習とはどういうものなのか、実際に知っている人はそう多くないでしょう。

今回は、AIを成長させる強化学習の手法について解説します。また、活用例も紹介していますので、ぜひ参考にしてください。

1. 強化学習とは
- 1.1. 機械学習の一手段
- 1.2. 強化学習のしくみ
2. 強化学習の構成要素とは
- 2.1. AGENT（エージェント）
- 2.2. ENVIRONMENT（環境）
3. 強化学習の手法を解説
4. 強化学習の活用例を紹介
5. まとめ
- - - 5.3.0.1. この記事の執筆・監修者

強化学習とは

強化学習とは、経験したことをAI自身が試行錯誤し、よりよい結果を得るための判断をしていく学習法のことです。人が思考する方法ととてもよく似ています。

特徴は、学習するためのデータを必要としないこと、そして応用できる分野が多岐に渡ることです。以下では、強化学習のしくみについて、ほかの機会学習と比較しながら、わかりやすく解説していきます。

機械学習の一手段

強化学習は、機械学習の一手段です。機械学習とは、AIが目的達成に必要な機能を得るための手段のことで、ほかには、「教師あり学習」「教師なし学習」の2つが存在します。

「教師あり学習」は、AIに「正解のデータ」を教えていく学習法で、「分類・認識」や「予測」の機能を持つAIの構築に適しています。たとえば、受信したメールが迷惑メールか否かを分類したり、画像の対象が人か動物かを認識したりする機能です。また、天気や企業の売上を予測する機能もこれにあてはまります。

「教師なし学習」は、大量のデータから「判断するパターン」をAIに覚えさせる学習法で、対象を特徴別にグループ化するような機能を持つAIの構築に適しています。たとえば、大量の画像データから人物を性別や年代別にグループ化するような機能があてはまります。

強化学習のしくみ

強化学習は、データを必要としない自己学習により、求める結果への方策を導き出すしくみをもっています。つまり、十分なデータの収集が困難な状況において、強化学習は真価を発揮するのです。

たとえばビジネスにおいて、必要なデータがそろわないためにそれ以上の進展が困難になる状況もあるでしょう。そのような時、「強化学習」のしくみは大いに役立ってくれます。実際の活用例は後ほど詳しく紹介していますので、ぜひ参考にしてください。

強化学習の構成要素とは

強化学習は、AGENT（エージェント）とENVIRONMENT（環境）の2つの要素で構成されています。

AGENT（エージェント）

AGENT（エージェント）とは、強化学習を行う際にさまざまな行動を起こす「学習主体」のことです。以下の4つのパラメータ（変数）の値を手がかりに学習を進めます。

状態（S）：AGENTの現在の状況、起こした行動によって更新される
行動（A）：AGENTが起こした行動そのもの
報酬（R）：AGENTの行動結果から得られる評価
方策（π）：得た報酬からAGENTが導き出した、次の行動への指針

AGENTは、報酬のパラメーターを最大化させるために自分自身で次の行動を決定します。人が新たにシステムをプログラムする必要はありません。

ENVIRONMENT（環境）

ENVIRONMENT（環境）とは、方策に沿ったAGENTの行動によって更新される対象のことであり、AGENTと相互作用しています。現代社会には、主に以下のような環境が存在します。

ロボティクス
ゲーム
自動運転
Suites
Navigation
Multi-Agent
Safety

強化学習では、社会の必要に応じて今後も新たな環境が構築されていくでしょう。それぞれでどのようなAIが構築できるのかを把握し、目的に応じた環境を選ぶことが重要です。

強化学習の手法を解説

強化学習には、「TD法」「MC法」「DP法」の3通りの手法が存在し、いずれも共通の目的のために使用されます。共通の目的とは「報酬の総量を最大化するためのパラメーターを学習すること」、つまり「AIを成長させること」です。

では、それぞれの手法の内容を見ていきましょう。

TD法（時間差分学習法）

TD法とは、行動したことによる環境への影響が不確定な場合でも、AGENTが影響を推定することにより行動を可能にする学習法のことです。TD法には「Q-Learning」と「SARSA」の2つの手法が存在します。

Q-Learning（Q学習）

Q-Learningは、「最適化」を目的とした学習法です。
推定される最大のQ値（最大行動価値）を得るために試行錯誤を繰り返し、徐々に最適な方策を導き出します。

※「Q値（最大行動価値）」とは、短期的な報酬よりも将来的な報酬を考えた行動に対する価値のことです。

例えば、テトリスのゲームにおいて、ブロックの消し方を考えるとわかりやすいでしょう。何も考えずに1つずつ消すよりも、先の展開を考えてためておき、最良のタイミングで一気に消すほうが、「Q値」が高いと言えます。

SARSA

SARSAは、Q値（最大行動価値）だけでなく、「実際の行動」を重視して最適な方策を導き出す学習法です。

例として、カーナビについて考えてみましょう。目的地までの複数のルートの中から、Q-Learningの場合は最短・最速で到着するルートを選択します。ルート内に危険な箇所があったとしても無視され、実際に走行した場合にどうなるかまでは考えてくれません。

しかし、SARSAはルート内の条件と実際の走行を比較・検討し、より安全で快適なルートを提案します。

MC法（モンテカルロ法）

MC法（モンテカルロ法）は、AGENTが行動した結果として得られる報酬が、不確定な場合に用いられる強化学習の手法です。何万回と行動を繰り返し、その結果得られる報酬から平均値を割り出して、より高い平均値を得られるように学習していきます。

行動回数を増やすほど高い平均値が得られますが、時間がかかり効率が悪いという欠点があります。

DP法（動的計画法）

DP法（動的計画法）とは、異なる行動であっても、以前の行動と共通する部分があればその過程を再利用し、同じ行動を何度も繰り返さないようにする学習法のことです。
そのため、1つの行動は複数の部分に分割され、「分割した行動」を記録しながら方策を導き出さねばなりません。

DP法には、以下の2つの学習法があります。

方策反復法
価値反復法

「方策反復法」は、少しでも高い報酬を得るために、最終結果に到るまで延々と行動し続ける方法です。それに対し「価値反復法」は報酬に上限を設定し、最終結果に至らずとも設定値に到達した時点で行動を停止します。

強化学習の活用例を紹介

ここでは強化学習の活用例をいくつか紹介します。この活用例を見れば、強化学習によるAIの将来性を見て取ることができるでしょう。

ゲームの対戦相手としての機能強化

ゲーム環境でのわかりやすい活用例として、ディープマインド社の「AlphaGo」から「AlphaZERO」への進化を紹介します。

AlphaGoは、囲碁対局プログラムとして史上初めてプロの囲碁棋士に勝利し、プログラムのもつ可能性を人々に知らしめた、画期的なAI（人工知能）です。2017年には、世界のトップ棋士である中国の柯潔（カ・ケツ）にも勝利しています。しかし、AlphaGoには「教師あり学習」によるプログラムであり、大量の対局・定石データの読み込みが必要という課題がありました。

一方、AlphaZEROは、強化学習を利用した囲碁、将棋、チェスの対局プログラムです。対局・定石データを一切使わず、MC法による自己学習のみでAlphaGoを超える性能を発揮し、強化学習の有用性を実証しています。

参照：Googleが最強のチェス・将棋AI「AlphaZero」を発表わずか24時間の自己学習で最強AIを上回る

自動運転の精度向上

自動運転は、今や現代社会になくてはならない技術として開発が進んでいます。しかし、自動運転に必要な制御パターンは数億通りにもなり、人力による実装は時間的にも作業的にもとうてい不可能です。

そこで、物体検知による膨大なデータをAIによる強化学習に活用し、標識や信号の識別、人や物との衝突回避などを可能にしました。AIの経験データが蓄積されるに従い、ハンドル操作やエンジン制御はより最適化され、自動運転の精度は今後さらに向上していくことが予想されます。

レコメンドの最適化

レコメンドとは、今までに消費者がチェックした商品をもとに、ウェブサイト上に関連商品が提示される機能のことです。消費者が欲しい商品を最適なタイミングで提案できることが多く、現在のウェブサービスには必須の機能といえるでしょう。

レコメンドの強化学習には、以下のような「ウェブサイト上における消費者の行動履歴」のデータが利用されます。

購買履歴
検索履歴
閲覧履歴

また、強化学習の行動・方策に影響を与えるのは、以下の要因です。

クリックスルー率
コンバージョン率
収益の増減
サイトの全閲覧者からのコンバージョン達成率

AIはこれらの要因を分析して学習し、最大の報酬を得るために行動・方策を繰り返してレコメンドの環境を最適化していきます。

まとめ

今回は、強化学習とはどんなものなのか、そしてAIをいかにして進化させるのか、その手法について解説しました。強化学習によるAI技術はさまざまな分野で活用されており、今後ますます活躍の場を広げていくでしょう。それは、ディープラーニング技術による深層強化学習の登場が追い風になっているためです。

株式会社アイディオットは「データで社会問題を解決する」をスローガンに、多くの実績と信頼のおける技術でAIの開発・運用をサポートしています。

興味のある方は、ご利用を検討してみてはいかがでしょうか。

この記事の執筆・監修者

Aidiot編集部
「BtoB領域の脳と心臓になる」をビジョンに、データを活用したアルゴリズムやソフトウェアの提供を行う株式会社アイディオットの編集部。AI・データを扱うエンジニアや日本を代表する大手企業担当者をカウンターパートにするビジネスサイドのスタッフが記事を執筆・監修。近年、活用が進んでいるAIやDX、カーボンニュートラルなどのトピックを分かりやすく解説します。