テキストマイニングの進化・・・感性表現の分類

「テキストマイニング」とは、企業ユースとしては、
主に、コールセンターやWebサイトなどに寄せられた
顧客の意見や感想、クレームなどの

「生の声」

を分析する方法です。


「生の声」は、「自然文」です。
すなわち、語られた言葉そのままの文章。

このため、そのままでは、

「満足という意見は、55%、不満足は45%」

といった数値で把握すること(定量化)が困難です。


ですから、こうした生の声は、

「定性情報(データ)」

と呼ばれています。


逆に、アンケート調査のように、
設問に対する答えが、


1.はい
2.いいえ

といった選択肢で示されていて、
数字(1or2)の数値データとして扱うことができ、
集計・分析が容易なものを

「定量情報(データ)」

と呼んでいます。


さて、「テキストマイニング」ですが、
その本質は、端的に言えば次のようになります。


「生の声」(自然文)という
「定性情報」を「定量情報」化すること


定性情報を定量化する具体的な手順は、
技術的・専門的になりすぎますので説明は省きます。

むしろ、実際にどんな分析結果が
テキストマイニングから得られるのかをご紹介します。


出典は、テキストマイニングの活用面に焦点を当てた新刊、

『顧客の声マネジメント テキストマイニングで本音を「見る」』
(三室克哉・鈴村賢治・神田晴彦共著、オーム社)

からです。(分析に詳しくない方にも理解しやすい良書ですよ。)

なお、以下の分析例は、化粧品クチコミ情報サイト
「@コスメ」のデータを利用したものです。

肌とか化粧関連の言葉が出てきてますね。


テキストマイニングでまず最初に行う分析は、

「単語分析」

です。

具体的には、生の声の中から、
「単語」を抽出し、その出現頻度をカウントします。


(単語出現件数ランキング例)

順位 / 単語 / 品詞の種類 / 頻度(件)
1位 / 使う / 動詞 / 2503
2位 / 良い / 形容詞 / 1300
3位 / 肌 / 名詞  / 992


これは、人々がどんな単語を多く口にしているかの
全体傾向をつかむための「定量化」(頻度のランキング)
ですね。


つぎに行うのが

「係り受け分析」

です。主語と述語の関係を取り出します。

これは、ユーザーが、何(主語)に対してどんなこと(述語)
を言っているかの「組み合わせ」を把握するということです。


(係り受けランキング例)

順位 / 係り受け / 頻度(件)
1位 / 香り・良い / 90
2位 / 香り・好きだ / 73
3位 / 香り・リラックスする / 10


上の分析例を見ると、特定の化粧品に対する声として、
「香りが良い」と書いている人がもっとも多く、
次に「香りが好きだ」という答えが続いているということが
わかります。

係り受け分析によって、顧客の意見や感想、評価などが
それぞれどの程度の多いかが数値で正確に把握できますね。


そして、さらに上記のような分析を
回答者の基本属性(性、年齢、職業など)で切る

「クロス分析」

を行い、性別、年齢別、職業別に
それぞれ生の声がどのように違っているかを深く探ります。

また、さらに高度な分析方法として、
似たような発言をしているユーザーをグループ化する分析
(クラスター分析)などを行います。


さて、ここまでは、
従来のテキストマイニングの典型的な分析方法です。


ただ、これらの分析だけでは、
知りたいけれど、実際の分析は困難なことが一つありました。

それは、

回答者の「感情(感性)」を定量化できない

ということです。


もちろん、たとえば「香りが良い」というのは
好意的な感情表現だから

「ポジティブ」

である。

逆に、「香りが好きじゃない」という発言が
あったとしたら、これは

「ネガティブ」

な感情表現であるという2分法の分類までは
おおむねやります。


すなわち、

ポジティブ(好意的)-ネガティブ(否定的)

という感情の両極で見て、
ある製品に対する評価を定量化するわけです。


しかし、この作業は基本的に手作業です。
ひとつひとつ生の発言を見ながら、これはポジティブ、
次のはネガティブと分類しなければなりません。

したがって、ポジティブ・ネガティブの2つに分けるので精一杯。
それ以上細かなニュアンスを分類するのは実質不可能でした。

ここで、細かなニュアンスというのは、

・意見
・願望
・不満
・後悔
・要望

といったことです。


さすがにこれだけ細かいニュアンスがわかるように、
生の声を分類するのは、手作業では実質不可能でした。


しかし、テキストマイニングの研究も日進月歩。
進化のスピードは速く、最近、
細かな感情表現の分類が可能なツールが登場しています。


それは、(株)NTTデータが開発・販売する

『なずき』

です。

「なずき」とは、“人の脳”の古称だそうです。


このツールを使うと、
最大「81種類」の感情表現別の回答件数を
把握することができます。

たとえば、顧客の生の声を分析して、

・好評 40件
・苦情 25件
・要望 18件

といった形で顧客の声の感情表現を把握することが可能です。


上記Webサイトを見ると、

日本語意味理解製品『なずき』

というタイトルが使われていますが、

文字通り、言葉の表面的なつながりだけでなく、
発言者の感情を抽出し、定量化することができる点で
画期的なツールだと思います。


私は、先日のSPSS Data Mining Dayにおける
『なずき』担当者によるご講演で初めて、
その先進性を理解することができました。
(感性表現の分類というのは説明が難しいんですよね。)


この拙文もちょっと難しくなっちゃいました。
説明に失敗していたらすいません。


ご興味のある方は、
上記講演のレポートをご覧になってみてください。↓

@IT Special PR:
SPSS Data Mining Day 2007 イベントレポート後編

「テキスト情報から『次の一手』を決めるマーケットの
 本音を探索 ~ 『なずき』による感性分析を主軸と
 した新たなテキストマイニング ~」

投稿者 松尾 順 : 2007年08月03日 13:17

トラックバック

このエントリーのトラックバックURL:
http://www.mindreading.jp/mt/mt-tb.cgi/582

このリストは、次のエントリーを参照しています: テキストマイニングの進化・・・感性表現の分類:

» casino en ligne bonus sans depot from casino en ligne bonus sans depot
テキストマイニングの進化・・・感性表現の分類 [続きを読む]

トラックバック時刻: 2013年08月14日 04:58

コメント

コメントしてください




保存しますか?