自然言語処理を実現する技術②「共起度解析」で言葉の関連性を調べる
2018.04.18
2018.04.18
前回の、「自然言語処理を実現する技術①「形態素解析」でTwitterとビジネスの文を比較する」では、品詞情報をから文章の特定を行なう手法を説明しました。
本記事では、文章解析を行なう際に得られる情報の活用手法を説明します。
日本語はいくつかの文のかたまりを文章とよびます。
※本項では「文」は句点(。)で区切ることのできるひとつづきのことばとし、「文章」はひとつのまとまった内容をあらわしたことばの集まりとします。
文章は、新聞記事、小説、雑誌、掲示板、日記やSNSなどは、文章を用いて表現されています。文章に含まれている文に対し形態素解析を行い、単語の共起度を求めることにより、どのような話題をピックアップされているかや、どのような単語がその話題に出やすいか等の情報を得ることが出来ます。
共起とは自然言語処理の分野において、「任意の文書や文に、ある文字列とある文字列が同時に出現すること」をいいます。
例えば選挙に関する話題のなかでは、「選挙」という言葉と「出馬」という文字列は同時に出現する場合が多いことが挙げられます。この共起する単語の割合が高い場合を「共起度が高い」と表現します。
今回は、2017年の年末に開催された紅白歌合戦の前後に公開された記事を元に、共起度解析を行ってみたいと思います。
共起度解析を行うことによって、実際の放映前後の記事の内容の違いを見ることができます。
今回は、次の2つの記事を使用します。
記事Aを文単位で共起度解析して得られた結果は以下の通りとなりました。
※共起回数3以上を抜粋。
単語ペア | 単語1 | 単語2 | 共起回数 |
---|---|---|---|
出場 安室 | 出場 | 安室 | 4 |
安室 紅白 | 安室 | 紅白 | 4 |
最高視聴率 瞬間 | 最高視聴率 | 瞬間 | 3 |
安室 控える | 安室 | 控える | 3 |
安室 発表 | 安室 | 発表 | 3 |
引退 9月 | 引退 | 9月 | 3 |
安室 歌手 | 安室 | 歌手 | 3 |
表1:記事Aの単語共起
図1:記事Aのキーグラフ
一方で記事Bを文単位で共起度解析して得られた結果は以下の通りとなりました。
※共起回数3以上を抜粋。
単語ペア | 単語1 | 単語2 | 共起回数 |
---|---|---|---|
ラスト 紅白 | ラスト | 紅白 | 5 |
ふさわしい 紅白 | ふさわしい | 紅白 | 4 |
紅白 見せる | 紅白 | 見せる | 3 |
ホール NHK | ホール | NHK | 3 |
トリ 紅組 | トリ | 紅組 | 3 |
表2:記事Bの単語共起
図2:記事Bのキーグラフ
上記の結果より、同じ紅白歌合戦の記事ですが、文単位で共起度に着目すると必ずしも同じ単語が共起されているとは言えません。なぜなら紅白歌合戦を行なう前と後では着目するポイントが異なるからです。
紅白歌合戦が始まる前の記事Bで共起が高い単語は「紅白+ラスト」や「紅白+ふさわしい」「紅組+トリ」などが挙げられます。これらが挙げられる理由は、どのような紅白歌合戦になるのかがまだわからないなかでの着目点が、トリの歌手や最後の出場歌手などとなっているからと推測できます。
一方で、紅白歌合戦を行った後の記事Aの着目点は、目玉だった安室奈美恵さんの記事内容と最高視聴率に絞られました。すなわち紅白歌合戦の前後では新聞社やユーザーの興味関心ポイントが異なることがいえます。
次に文章単位で両記事を解析した際のデータを表3に記します。文章単位で解析することによって、文章全体の相違点をとらえることができます。
下記データでは、記事A、記事Bだけにだけ出現した単語、記事A、記事Bによく出現した単語、両方によく出た単語を抽出しました。
なかでも着目したいポイントは両方によく出た「紅組、安室奈美恵、ぶり、テーマソング、以来、パラリンピック、紅白歌合戦、大みそか、来年」という単語です。これらの単語は始まる前に既にわかっていた情報と始まった後にも注目されていた点を表しております。すなわち2017年の紅白歌合戦は安室奈美恵さんが中心だったと改めて強調することが出来ます。
紅白歌合戦前 記事Bにだけ出現 | 紅白歌合戦前 記事Bによく出る | 両方によく出る | 紅白歌合戦後 記事Aによく出る | 紅白歌合戦後 記事Aにだけ出現 |
---|---|---|---|---|
中継 ホール 確認リレー リハーサル演出 桑田 会場 CP 歌姫 テーマ 沖縄スタジオ ふさわしい 見せる よる 立ち位置チーフ プロデューサー サンケイスポーツ 番目 氷川きよし 登場 以外 後押し 桑田佳祐 選曲 自信 スペシャルメモリアル | 紅白 NHK ラスト 矢島 トリ 場所 | 紅組 午後 安室奈美恵 歌唱 ぶり テーマソング 以来 Hero 注目 パラリンピック 来年 決定 紅白歌合戦 大みそか 集まる 歌う | 安室 引退 出場 9月 歌手 出演 | 瞬間 最高視聴率 発表 控える 最後 昨年 人生 12月 特別 前年 思う 放送 ホームページ 平均 歴代 ワースト 全体 上昇 写真 優勝 熱唱 リオ五輪 披露 テレビ 7月 テレビ朝日 ミュージックステーション 総合司会 内村光良 トーク |
表3:両記事における出現度合い
文単位で解析を行った際に共起度を出した場合は、事前に着目されているポイントと事後に着目されているポイントが異なることがわかりました。一方、文章単位で解析を行った際は、2017年における紅白歌合戦の特徴がわかりました。
現在、自然言語処理の分野では様々な場面で共起度解析の結果が使われています。
SNSやブログを投稿される方はハッシュタグをつけるという方も多いかと思いますが、ハッシュタグは、ある投稿に対して様々な人に興味関心を持ってもらうために用います。その際に、投稿するユーザーが思ってもみなかった単語が関連している(=共起している)事が多々あります。
上記の例を挙げるならば、紅白歌合戦に共起する単語といえば、「NHK、大みそか、出場歌手、トリ」などは想像がつきますが、「パラリンピック」や「最高視聴率」は見落としがちです。
「パラリンピック」は本紅白歌合戦でキーパーソンだった安室奈美恵さんが、リオパラリンピックのテーマソングを歌ったために出てきた単語です。このように、上記例では紅白歌合戦がと全く関係の無いような単語も抽出することができるので、タグ打ちを広告利用する場合などはリーチを広める役割を持つことも想定できます。
例えば、SNS広告を配信する上でタグ付けを行なうことで、隠れたターゲットに広告を訴求することが可能となります。すなわち、上記のように、関連性のある(=共起度の高い)タグ付けを行なうことにより、広告訴求先が顕在層だけでなく、潜在層に対しても可能となります。
その他にも、ユーザーがGoogleの検索を行なう際に、ユーザーに閲覧してもらいたいページを上位に結果がでるように対策する、SEO対策の分野にも活用されております。これはGoogleの検索エンジンがコンテンツの網羅性や専門性を判断する際、共起語を用いて判断しているためです。
上記のようにデジタルマーケティングには切っても切り離せない共起度ですが、今では下記のサイトのように簡単にチェックすることが出来ますので、文章を解析される際は試して下さい。
User Local テキストマイニングツール
https://textmining.userlocal.jp/
次回は文章を形態素解析し、統計的解析(クラスター分析)を行った上で単語や文の分類を行ないます。
JTP における自然言語処理の技術を活用した Watson チャットボットや検索システムの取り組みについては、下記のページでもご紹介しています。ご興味のある方はぜひご覧ください。
記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。