Webは一般利用者が手軽に情報発信することが出来ることから、様々な品質のページが存在し、その中から価値や信頼性の高い情報を見つけることが重要な課題となっている。受賞者らは、玉石混淆のWebコンテンツから信頼性や価値の高い情報を見つけることを目的として、Web上で「誰が」「何を」「どのように」述べているのかを抽出し、組織化する情報分析技術を開発し、Web情報報分析システムWISDOM* (図1)として一般公開し、その有効性を確認した。
WISDOMは、情報内容(意見・評価情報、主要・対立表現)、情報源(情報発信者、情報外観)の観点での分析結果を統合し、利用者によるWeb情報の信頼性評価を支援する。意見・評価情報分析は、Webのテキスト情報から肯定・否定意見を自動抽出し、提示する。受賞者らは、従来抽出することが困難であった多様な評価情報の抽出を実現するため、学習用データとして評価情報を付与したコーパスを作成し、形態素情報や係り受け情報を元に、隠れ変数をもつ条件付き確率場を用いた機械学習方式を開発した。この方式を用いて評価極性の判断を行い、既存研究の精度を上回る精度85%を実現した。また、述語項構造分析技術により、主要表現とそれに対立する少数の対立情報抽出を可能にした。さらに、Webページを発信しているサイト運営者や、ページ内のコンテンツの著者を自動抽出する技術を開発し、約80%の高精度でサイト運営者を認識した。
これらの分析方式を統合して実環境で評価するため、6億を超える日本語Webページを収集し、情報分析に適したページを段階的に選択する国内最大級のWeb情報分析基盤(図2)を構築した。その基盤上にWISDOMを実装し、一般利用者によるモニター評価結果から、「立場の異なる発信者の多様な意見が見つけられる」等で、従来の検索エンジンに比べ優位性があることを確認した。
本技術により、一般の人が商品購入、健康管理、就職活動などの意思決定の際にWeb情報を安心して利活用することが可能になる。また、企業によるマーケティング、違法有害情報の検出等の情報サービスへの応用も期待される。
* WISDOM:Web Information Sensibly and Discreetly Ordered and Marshaled
図1 Web情報分析システムWISDOMの画面例
図2 Web情報分析基盤
|