近年、Googleの検索エンジンの精度向上などで話題の「BERT」をはじめとして、「自然言語処理」の技術動向に注目が高まっています。一方で、AIなどに活用される「機械学習」はよく知られていますが、機械学習との関係性について理解している人はあまりいないのではないでしょうか。この記事では、自然言語処理の仕組みや機械学習との関係性、仕組みや活用例について紹介します。
AI導入のノウハウ・活用方法をチェック
自然言語処理(NLP)とは
自然言語処理は、人が話したり書いたりする時に使う言葉(自然言語)の内容を解析・処理する技術のことを言います。「書き言葉」だけでなく、音声認識技術の進化によって「話し言葉」までの言葉の持つ意味を様々な方法で解析でき、課題解決に役立てられるため、近年注目の集まっている技術です。
自然言語処理(NLP)の仕組み
ここでは、自然言語処理の仕組みを4つの工程(形態素解析、構文解析、意味解析、文脈解析)に分けて説明します。
前準備:MARCとコーパス
自然言語処理を行うためには、前準備として「MARC(機械可読目録)」および「コーパス」の構築が必要です。MARCとは、図書館や資料館に貯蔵されている情報を自然言語処理するために設計された「データフォーマット(通信規格)」のことを言います。日本においては、大学などで使用されている「OPAC」などが有名なMARCです。次に、コーパスとは、文章構造をコンピュータで分析するための「データベース」のことを言います。なお、自然言語処理において、MARCは「辞書」として定義され、コーパスは「言語全集」と言われています。
形態素解析
形態素解析は、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別する作業のことを言います。形態素は文章や単語よりも細かな情報で、その後の解析のためにこれらの意味を抽出する必要があります。
また、形態素解析はツールには、無料のものと有料のものがあり、無料で使えるものとして有名なものには「MeCab」、「ChaSen」、 「KyTea」などがあり、有料で使えるものとしては「Rosette」、「IBM Watson」、「MARIMO」などがあります。
構文解析
構文解析は、文章、具体的にはマークアップなどの注記の入っていないベタの文字列を、自然言語であれば形態素に切分け、さらにその間の関連(修飾-被修飾など)といったような、統語論的(構文論的)な関係を図式化するなどして明確にする(解析する)作業のことを言います。これによって機械が単語同士の関係性を理解し、文脈を判断する準備ができます。構文解析を行う代表的な手法としては「依存構造解析」および「句構造解析」があります。
依存構造解析
依存構造解析は、文章中の単語同士の係り受け関係を解析し、どの単語とどの単語が係るかなど、構造的な依存度を構文的に解析するものです。日本語に対応している構文解析器(パーサー)としては「CaboCha」、「KNP」などがあります。
句構造解析
句構造解析は、どこの文からどこの文までが部分構造を成すか、すなわち「句」となるのかを推測する解析方法です。
意味解析
意味解析とは、これまでの解析結果を踏まえ、文章の意味を解析する作業のことを言います。意味解析の代表的な手法には「グラウンディング」および「アノテーション」などがあります。
グラウンディング
グラウンディングとは、「実世界の意味」と「機械の世界の意味」の比較を、様々なデータベースを駆使し結びつける作業のことを言い、この作業によって、より正しく意味を解釈できます。
アノテーション
アノテーションは、自然言語のデータにタグ付けをする方法で、単語の意味に対してタグ付けする「意味的アノテーション」と文章の内容に対してタグ付けする「言語的アノテーション」があります。
文脈解析
文脈解析とは、複数の文章の解析結果に対して行い、文と文のつながり、すなわち文脈を分析する作業のことを言います。これを行うには、単語同士の関係だけでなく、文章と文章の間に隠された複雑な情報が必要になることもあるため、意味解析よりもさらに難しく、なかなか実用的なツールが存在しないといわれています。しかし、近年「機械学習」や「ニューラルネットワーク」の技術進歩によって、着々と実用化に向けて研究が進められている分野でもあります。
機械学習とは?
機械学習はデータ分析手法の一つです。データから、「機械」(コンピューター)が自動で「学習」し、データの背景にあるルールやパターンを発見する方法です。
機械学習の類義語として、「人工知能(AI)」や「ディープラーニング(深層学習)」があります。「人工知能(AI)」を実現するためのデータ分析技術の1つが「機械学習」で、「機械学習」における代表的な分析手法が「ディープラーニング(深層学習)」と言われています。
機械学習の種類とは?
機械学習は、データから学ぶことで予測や判断を行う技術です。大きく分けて、教師あり学習、教師なし学習、強化学習の三つのタイプがあります。以下に、それぞれの機械学習の種類について簡単に説明します
教師あり学習(Supervised Learning)
入力データと、出力データ(答)が揃っており、入力データから出力データを推計するためのもの。
例::画像に写っている物体を識別する(猫か犬か)、メールがスパムかどうかを判断する。
主なアルゴリズム:線形回帰、ロジスティック回帰、サポートベクターマシン、決定木、ランダムフォレストなど。
教師なし学習(Unsupervised Learning)
一連の入力データから、データの背景にある隠れたパターンや構造を見つけ出すもので、「教師あり学習」と比べると、目的となる出力データがないため、各データ間の近さや類似度などを計算し、データをグループに分けたり、データ間のつながりを推計します。
例:顧客のセグメント化、異常検知。
主なアルゴリズム:k-meansクラスタリング、階層型クラスタリング、主成分分析(PCA)、自己組織化マップ(SOM)など。
強化学習
最初からデータがあるわけではなく、システム自身が試行錯誤しながら、精度を高めていくための学習方法。
例:ビデオゲームでのプレイ、自動運転車の制御、ロボットの動作学習。
主なアルゴリズム:Q-learning、Deep Q-Networks(DQN)、Policy Gradient methodsなど。
自然言語処理(NLP)と機械学習の関係
すでに説明している通り、自然言語処理は「人が使う言葉を機械に理解させる手段」です。さらに、機械学習は「機械がデータを基にして学習し、分析をする手段」です。これらのことから、それらの関係は表裏一体といえます。すなわち、機械が学習するためには、自然言語を機械が理解できるデータに変換する必要があるし、自然言語を機械に理解させるデータに変換する精度を上げるためには、多くの処理方法を学習した機械が必要になります。
自然言語処理(NLP)の活用事例
自然言語処理が使われたサービスやツールは、今やわたくしたちの生活圏内にありふれていますが、ここでは、その具体的なツールを紹介します。
DeepL翻訳:機械翻訳
DeepL翻訳は世界遺産の立派な大聖堂が立つドイツ・ケルンに拠点を構えている。独自のディープラーニングをベースにしたAI(人工知能)システムを開発する企業が、2017年に公開した機械翻訳システムを社名と同じDeepLと名付けてローンチしました。現在、DeepL翻訳はWindows/Macに対応するアプリになっていますが、まだモバイルアプリ化はできていないため、スマホやタブレットで使う場合はブラウザから「https://www.deepl.com/」にアクセスして利用できます。
CHIVOX:機械翻訳スピーキング評価AI
CHIVOXは、学習者のスピーキングを「発音」「流暢さ」「内容」「文法」等の項目で評価・診断し、改善点フィードバックを行う音声評価AIであり、導入企業様は自社の英語学習サービス内で自由に利用できるPaaS型のサービスで、評価の即時性と精度の高さ、多機能性に特徴があります。CHIVOXは中国の英語教育サービス市場の約60%のシェアを有し、上海市や江蘇省等の自治体が行う大学入試および高校入試においては英語スピーキングテストの自動採点システムとしても利用されています。グローバルでは1,000社以上のプロダクトに導入され、現在グローバルに存在する14社のEdTechユニコーンのうち3社で導入されています。末端の英語学習人口は1億3,000万人を超え、毎月6億回以上のスピーキング評価を行っています。
BERT:検索エンジンGoogle
BERTは、Bidirectional Encoder Representations from Transformers の略で、「Transformerによる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルです。翻訳、文書分類、質問応答など自然言語処理の仕事の分野のことを「(自然言語処理)タスク」と言いますが、BERTは、多様なタスクにおいて当時の最高スコアを叩き出しました。BERTにはTransformerというアーキテクチャ(構造)が組み込まれており、文章を双方向(文頭と文末)から学習することによって「文脈を読むこと」が実現しました。
まとめ
最後まで読んでいただき、ありがとうございます。これから更に期待が高まる自然言語処理ですが、仕組みや活用例を知ることで、より身近に感じていただけたかと思います。また、自然言語処理と機械学習は表裏一体の関係にありますが、今後発展を遂げるそれらの分野の相乗効果により、新しいサービスやツールの登場に期待しましょう。
この記事の執筆・監修者
「BtoB領域の脳と心臓になる」をビジョンに、データを活用したアルゴリズムやソフトウェアの提供を行う株式会社アイディオットの編集部。AI・データを扱うエンジニアや日本を代表する大手企業担当者をカウンターパートにするビジネスサイドのスタッフが記事を執筆・監修。近年、活用が進んでいるAIやDX、カーボンニュートラルなどのトピックを分かりやすく解説します。