自然言語処理(NLP)の学習した内容をざっとまとめてみた①

※ 本記事には僕の個人的見解が多分に含まれております。もし違ってたらご容赦ください。

自然言語処理について

自然言語処理研究の歴史

自然言語処理の現状

自然言語処理のビジネス活用事例

■ 自然言語処理について

・自然言語とは？

僕たちが普段、自然に喋ってる言葉です。日本語とか中国語とか英語とかです。

コンピュータが使う「プログラミング言語」と区別するために人間の言葉を自然言語と読んでいます。

・自然言語処理とは？

自然言語には「曖昧性」が存在します。

曖昧曖昧（あいまい）とは、1つの表現や文字列、項目などが2つ以上の意味にとれること、もしくは、周辺が不明瞭なことである。

人間は大抵の場合、この言語の曖昧性を特に意識せずに解釈して理解しますが、コンピュータの場合はそうはいきません。なぜならコンピュータに曖昧性は解釈出来ないからです。

この自然言語の曖昧性を踏まえて、自然言語によって書かれたテキストデータをコンピュータで扱うための技術が自然言語処理です。

■ 自然言語処理研究の歴史

僕が読んだ文献には、自然言語処理の歴史は1940年代後半にまで遡ると書いてありました。

自然言語処理の最初の研究対象は「機械翻訳」の技術であり、様々な人達がある言語の文を入力し別の言語の文を出力する機械的な手続きの可能性を議論していたようです。

当時、割と簡単に実現出来ると思われていましたがそれは大間違いでした。最大の問題は自然言語が持つ「曖昧性」で、曖昧性を理解するには言語の文脈から、その文が持つ「意味」をコンピュータに理解させる必要があったからです。

当時、自然言語の研究はほとんどされておらず、少なとも文の構造や文法規則を形式的に記述する枠組みがまだ出来ていなかったのです。むしろ機械翻訳の研究過程で、或いはそれらに触発されて言語の構文や文法を形式的に取り扱う事への関心が高まっていったのです。

自然言語の「理解不足」と「技術的な要素」の観点から当時は機械翻訳の実現は不可能だったのです。そして自然言語処理は冬の時代を迎える事となります。

■ 自然言語処理の現状

自然言語処理の冬の時代も機械翻訳の研究は継続されていました。

そこで発明された古典的手法では単語の出現位置や出現頻度だけを考えていて、文脈の「意味解析」は出来ていませんでした。

しかし、2013年頃にWord2vecというニューラルネットワークを用いたWordEmbedding手法とRNN（再帰型ニューラルネットワーク）という深層学習モデルの発明が自然言語処理に一筋の希望をもたらします。

この2つの手法の登場により機械翻訳精度の劇的に向上したらしいです。その後もニューラルネットワークを用いた様々な手法が開発されていきました。

2020年3月現在、機械翻訳タスクでWord2vecやRNN系モデルよりも高い翻訳精度を出す手法が登場しています。現在の自然言語処理モデルのスタンダードはRNN系列モデルではなくAttention系列モデルです。

というか日々、新しい手法が論文で発表されていると言っても過言ではありません。ここではそれらの手法についての詳細は省きます。

ちなみに現在の技術でも、本当に言語の意味解析が出来ているか？と問われれば答えはNOです。というかそもそも意味って何なのか？という本質的な問いに答える事が出来ていないのです。

■ 自然言語処理のビジネス活用事例

自然言語処理のビジネスに於ける活用事例は画像処理など他の深層学習の分野に比べるとまだまだ少ないのが現状です。

その理由は、端的に言うと他分野に比べて解くべき問題に「曖昧性」を多分に含むためです。ここでも曖昧性がネックになります。コンピュータにとって曖昧性というのは本当に理解しづらいものなのですね。

自然言語処理タスクをAIに解かせるよりも人間にやらせた方が圧倒的に早く正確に問題を解けるので、自然言語処理のシステムを導入するよりも人間にやらせた方がコストが安い事例が多いのが現状です。（2020年3月現在）そう考えると人間の頭脳ってそこら辺（曖昧性）をよしなに処理出来るところが驚異的な能力ですよね。

かと言って自然言語処理が研究段階を過ぎていないのかとそうではなくて、実際にビジネスに活用されている事例はありますので軽く紹介させて頂きます。

news.mynavi.jp