自然言語処理を実現する技術①「形態素解析」でTwitterとビジネスの文を比較する
2018.02.22
2018.02.22
IBM Watsonを始めとするAIの音声認識や、まとまった文章を解析するための技術として、「自然言語処理」があります。今、目まぐるしく進化が進む分野ですが、この自然言語処理を実現する手法の一つに、「形態素解析」があります。本稿では、文を形態素に分けることでできることや、実際の自然言語処理の分野でどのように活用されているかを、実際にTwitterの文とビジネス文の比較をまじえ、ご紹介します。
人の言葉や書き言葉である「自然言語」を分析する、「自然言語処理(NLP)」。IBM WatsonやAmazon Alexaなどの音声認識系のAIは、この「自然言語処理」と機械学習が組み合わせ、人の言葉をどんどん学習し、認識の精度を上げています。Google Homeや、Amazon Echo等といった「スマートスピーカー」も、この自然言語処理なしでは実現できない技術です。
自然言語処理と一言で言っても、様々な技術によって成り立っていますが、今回はその中で「形態素解析」に注目したいと思います。
「形態素解析」とは、文章や文といったテキストデータを、「形態素」(≒意味を持つ単語の最小単位)ごとに区切ることで、その文の単語レベルの特徴を取得し、品詞情報を取得する技術です。
この技術は、検索エンジンや機械翻訳、かな変換で使われてきました。この形態素解析や、その他の自然言語処理技術が、機械学習と結びつくことによって、言語、音声認識に関する技術が発展している今があると言えます。
形態素解析については、MeCabで形態素解析をしてみよう!でも詳細をご紹介していますので、こちらもご覧ください。
形態素解析を行うことで、品詞情報を取得するとご紹介しました。本稿の後半では、実際に文の比較を行いたいと思いますが、その前に、日本語の品詞についておさらいしたいと思います。
日本語の品詞には、下記のようなものがあります。
これらの情報を取得することにより、様々な文章や文の特徴を得ることが出来ます。
それでは、例文を用いてTwitterの文とビジネス文を、形態素解析を使ってどのように比較しているのかをご紹介します。今回例に用いる下記の2文は、Twitterに投稿した文とビジネスで使われていた文とし、同じ人物が作成したとします。
Twitter「さっきVRの展示会に行ったけど人がすごく多かった。プレステか新しいパソコンが欲しくなった。」
ビジネス文「○○株式会社の▲▲と申します。先程は貴重なお時間を賜り、誠にありがとうございます。」
上記の文は、どちらがTwitterでどちらがビジネス文かは、人間は容易に理解できるはずです。しかしコンピュータに理解をさせるには、数値解析(統計的手法等)を用いる必要があります。
それでは、実際に形態素解析を用いて比較してみましょう。
まずは、それぞれの文を品詞ごとに分類してみます。
さっき / VR / の / 展示会 / に / 行った / けど / 人 / が / すごく / 多かった / 。 / プレステ / か / 新しい / パソコン / が / 欲しく / なった / 。
名詞 / 名詞 / 助詞 / 名詞 / 助詞 / 動詞 / 助詞 / 名詞 / 助詞 / 形容詞 / 形容詞 / 記号 / 名詞 / 助詞 / 形容詞 / 名詞 / 助詞 / 形容詞 / 動詞 / 記号
日本サード・パーティ株式会社 / の / 田中 / と / 申し / ます / 。 / 先程 / は / 貴重 / な / お / 時間 / を / 賜り / 、 / 誠 / に / ありがとう / ござい / ます / 。
名詞 / 助詞 / 名詞 / 助詞 / 動詞 / 助動詞 / 記号 / 名詞 / 助詞 / 形容詞 / 助動詞 / 接頭辞 / 名詞 / 助詞 / 動詞 / 記号 / 名詞 / 助詞 / 動詞 / 記号
2つの文の品詞の数を比べてみましょう。
ビジネス文 | ||
---|---|---|
合計 | 20 | 20 |
名詞 | 6 | 5 |
助詞 | 6 | 5 |
形容詞 | 4 | 1 |
動詞 | 2 | 3 |
助動詞 | 0 | 2 |
接頭辞 | 0 | 1 |
記号 | 2 | 3 |
それぞれ合計の品詞数は20ですが、使われている品詞の内容と数を見比べると、違いが見えてきます。
上記の2つを見比べたときに、特徴的なポイントが2点あります。
基本的にビジネス文書を作成する際は、形容詞を多用しないことがルールとして挙げられます。形容詞は「断定的」な表現ではなく、「程度」を意味する表現で用いる品詞です。
上記の例では、「すごく」「新しい」「欲しく」「貴重」が形容詞です。たとえば、「すごく」という表現を取った場合、その「すごく」は百、千。万、それ以上の何を表現しているかはわかりません。
また「新しい」も何と比べて新しいかや、いつの時点で新しいかはわりません。
これを加味するとTwitter文例は形態素解析を行うだけでも、ビジネス文では無さそうという結論を得ることが出来ます。
助動詞はある品詞(動詞や形容詞など)の後ろに添えるつぎのような目的が「使役」・「受身」・「可能」・「尊敬」・「自発」・「丁寧」の際に用いるための品詞です。助動詞を用いる機会が多い文にビジネス文が挙げられます。
上記のように「尊敬」・「丁寧」・「可能」など、ビジネス文を提示する相手に悪い印象を与えないようにしなければなりません。
例では「『田中』の後ろにつく『と』」と、「『貴重』の後ろの『な』」があります。これらは表現として丁寧な印象を与えるために用いているため、助動詞として表れています。
単語の品詞情報だけでも、場面ごとに相応しい文か否かを判断することができます。今回用いた例はシンプルなものでしたが、長く複雑な文においても、基本的にはこの積み重ねにより、解析を実現しています。
しかし、まとまった文章に対して、実際の自然言語処理(機械翻訳や文章リペア、自動生成など)を行った際は、これらの情報だけでは、まだまだ不完全な自動処理となってしまいます。
次回は、自然言語処理において重要な考え方である、「共起度」についてご紹介したいと思います。
JTP における自然言語処理の技術を活用した Watson チャットボットや検索システムの取り組みについては、下記のページでもご紹介しています。ご興味のある方はぜひご覧ください。
https://www.jtp.co.jp/services/ai/
日本サード・パーティ株式会社
新規事業開発本部デジタルマーケティング担当
嶋村 和樹
大学院在籍時に人工知能の基礎研究の1つである自然言語処理を専攻。主に日本語の敬語研究を専門とする。
修了後はベンチャー企業にて営業職及びマーケティング職に従事。現在は日本サード・パーティ株式会社にてデジタルマーケティング事業のディレクション業務や制作業務を行なう。
記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。