そもそも画像認識とは?画像認識の概要と歴史
画像認識の概要
近年、AIの分野で広く使われ、日常的にも目にすることが多くなってきた「画像認識」ですが、そもそも画像認識とはいったい何のことなのでしょうか?
「画像認識」とは、簡単に言うとコンピュータが「その画像に何が移っているのか」を認識する技術のことです。人間の場合であれば、もちろん過去の経験から、猫と犬の写真を見せられたら、どちらが犬でどちらが猫かを判断するのは難しくないでしょう。ただし、それをコンピュータが行うといったことは、コンピュータ内に人間と同じように過去の経験や前提となる知識がないため、これまでは非常に困難でした。猫や犬といっても様々な種類のものがあり、一概に「犬は〇色だ」「猫の尻尾の形は○○だ」と定義できないからです。
しかし、近年登場したAI(人工知能)を用いた深層学習という手法を活用すればコンピュータが数多くの画像データを識別することが可能になりました。これにより、機械が画像に移っているものが何なのかといった判断を行うことが出来るようになったのです。
画像認識の歴史
画像認識は深層学習という手法でできるようになった、と記載しましたが、実際には深層学習を導入するもう少し前から簡単な画像認識は私たちの身の回りで活用されていました。その歴史をさかのぼってみましょう。
一番初めに画像認識技術が使われた「バーコード」
まず、画像認識技術が活用された例として現在最も古いとされているのが、「バーコード」です。バーコードは1940年頃に導入されており、もちろん今も身近にあふれている商品のパッケージに記載されているものです。
しかし、先ほどの犬と猫の例から、「画像認識=画像に写っているものが何かを判断すること」ではないのかというように、バーコードが画像認識技術を使っているということに少し疑問を持つ方もいるかもしれません。もちろんどちらも画像認識の一種で、バーコードのような画像により情報を得るものも十分立派な画像認識といえるでしょう。
画像の単純比較を行う「テンプレートマッチング」
2000年代以前では、「画像認識といえばテンプレートマッチング」といわれるほどに、テンプレートマッチングといった手法が画像認識界の一世を風靡していました。テンプレートマッチングとは、画像に移っている物体の位置を探すといった技術のことです。具体的な方法としては、まず初めに位置を探したい画像をテンプレート画像として、設定します。その後テンプレート画像と、テンプレート内の画像探索の対象となる画像を、スライドしながら比較します。これにより、テンプレート画像として設定したものが、画像のどこにあるのかを判断することが出来ます。
しかし、この手法には「照明の大小や当たり方によって、誤った判断をしかねない」、「認識したい対象物と同じ数のテンプレート画像が必要」といった問題点があり、画像認識技術として完璧なものであるとは言い難かったのです。
画像認識の進化の火種となった深層学習
2000年代に入ると、深層学習といった手法を用いた画像認識が可能になりました。では、深層学習とは具体的にどのような手法なのでしょうか?先ほどの猫と犬の識別の例を用いて考えていきましょう。
従来のテンプレートマッチングでは、先述した通り「証明によって認識率が低下してしまう恐れがある」ことや「大量のテンプレート画像が必要」といった問題点がありました。また、そのほかにも、テンプレート画像と同じものしか識別できないため、「犬を探せ」とか「猫を探せ」のような漠然としたものにはなかなか対応できずにいました。
そんな中、登場したのがこの深層学習です。深層学習では、猫と犬の識別を行うために、何万枚もの犬や猫の画像をコンピュータに見せて、「これは猫だよ」「これは犬だよ」といったようにその画像に写っているものの正解を与えます。それをひたすら繰り返してコンピュータに自ら学習させます。
犬と猫を全く知らない人物に、その違いを文章で伝えるのは困難ですが、いくつかの画像を見せてその正解を与えることは簡単ですよね。なおかつ、そちらのほうが学習者にとってもわかりやすいはずです。コンピュータに対しても同じです。コンピュータは犬や猫について全く前提知識がないので、たくさんの例を見せて特徴を捉えてもらいます。これにより、コンピュータが犬と猫の識別を行うことが出来るようになります。これが深層学習です。
画像認識の種類
コンピュータの画像認識は、様々な要素によって行う処理が異なります。なので一口に画像認識といってもいくつかのグループに分けられます。ここでは、一般的に広く使われている技術をいくつか紹介します。
物体認識
物体認識とは、対象の物体が画像の中に存在するかどうかを調べたり、画像に移っている物体が何なのかを判別したりする技術のことです。活用例としては、製造現場において出来上がった物体の写真の中から不純物を検出したり、清掃現場において収集されたごみの中から金属ごみを検出したりすることなどがあげられます。
顔認識
顔認識は、顔の画像からいくつかの特徴を認識する技術のことです。基本的には、目や口などを認識しますが、近年では、その人の年齢や性別、表情まで検出できるようになっています。活用例としては、企業における入退室管理や、小売店における性別や年齢などの属性情報をもとにした商品のレコメンドサービスがあげられます。
また、身近な例で言いますと、iPhoneのロック解除や、富士急ハイランドの1Dayパスポートの使用にも顔認識が使われていたりします。近年では、驚くべきことにマスクにより顔の大半が覆われている人物の顔も高精度で認識することに成功しています。こちらももちろん、ディープラーニングにより実現可能となりました。
文字認識
文字認識とは、他の分野と比べて古くから研究されている分野で、手書きの文字や、印刷文字などを判別する技術のことです。近年では、項目の位置がバラバラな非定型文書や、癖の強い手書き文字でも読み取り可能になっており、「古文書に書かれたくずし字の判別」や「約100年前の新聞のテキストデータ化」などに使われています。
画像認識の活用事例
ここまでで、画像認識の歴史や種類をいくつか紹介してきましたが、以下では様々な分野で実際にどういったところに画像認識が使われているのか、をご紹介いたします。
多国語に対応する翻訳機能
先ほどの文字認識を用いた活用事例の一種として機械翻訳があります。現在では、LINEの公式アカウントに日本語を入力するとそれを他国語に翻訳してくれるものがあったり、音声で日本語を機械に伝えると、他国語に翻訳したものを機械が読み上げてくれたりといろいろな場面で使われています。
そんな機械翻訳なのですが、実は数十年前は実装が非常に難しいとされていました。その理由としては、私たちが普段使う言葉の複雑さにあります。日本語を例にとって考えてみましょう。
例えば、「太郎君はたかし君のように速く走れない」。あなたならこの文章をどのように解釈するでしょうか。よくよく考えてみると、二つの意味で解釈することが出来ると思います。「たかし君は足が速く、太郎君はそんなたかし君のようには速く走れない」といった意味にとることもできますし、「太郎君はたかし君と同じように速く走れない」といった解釈もできます。
このように同じ文章でも複数の意味合いを含むことから、AIがそれを理解し解釈するのは非常に難しいとされてきました。人間はこういった文章を前後の文脈や、たかし君と太郎君のことをある程度知っているといった文の裏に隠された背景から判断するのですが、もちろんAIに人間と同じような経験は備わっていません。
しかし、近年ではAI技術の発展に伴い、機械が非常に自然な翻訳を行うことが出来るようになっています。これは、AIが単語レベルの翻訳にとどまらずに、構文解析・意味解析を行った結果です。
AIによる体温管理
昨今では、新型コロナウイルス感染症の影響で様々なテーマパークやショッピングモール、飲食店で検温が行われています。そんな時にもAIは広く活用されています。
ショッピングモールなどにスマートフォンや大きめのモニタが置いてあるのを見たことがある方も多いのではないでしょうか。そのスマートフォンやモニタの前に立つと、顔認識技術より写った人の体温がわかるといったものです。最近では、割と多くの場所でこれらが導入されています。従来の人間が図るものと比べて、人件費が削減され、なおかつ円滑に体温の測定ができます。
スポーツにおけるAIの導入
日常に多く潜んでいるAIだが、実はスポーツの分野でも活躍の場を広げています。サッカーのファール判定やテニスのライン越えの判定、陸上のフライング判定などには数年前からAIが使われており、公平な判断を下すことでトラブル解消のもととなっていた。
そんな中、近年では体操の判定にAIを用いるといった動きを見せている。体操やシンクロナイズとスイミング、フィギュアスケートは美を競う競技であり、客観的な判定が非常に難しい。そこで、AIに正解の動きを学習させることで公平に判断しようといったものである。これにより、アスリートにとっても目指すべきところが明確となり、より効率の良い練習が行えるのではないだろうか。
まとめ
画像認識の歴史や種類、そしてその活用例まで記載してきましたが、画像認識への理解は深まったでしょうか。画像認識技術はここ数年で大きく進歩しており、今後さらなる成長が見込めます。世の中の様々なものに画像処理技術が導入される将来になることが予測されるので、皆様に少しでも画像認識技術のことを知ってもらえたらうれしい限りです。
この記事の執筆・監修者
「BtoB領域の脳と心臓になる」をビジョンに、データを活用したアルゴリズムやソフトウェアの提供を行う株式会社アイディオットの編集部。AI・データを扱うエンジニアや日本を代表する大手企業担当者をカウンターパートにするビジネスサイドのスタッフが記事を執筆・監修。近年、活用が進んでいるAIやDX、カーボンニュートラルなどのトピックを分かりやすく解説します。