------------------------------------------------------------------
               第 349 回 PTT のお知らせ

      ---  Programming Tools and Techniques  ---
------------------------------------------------------------------
■日時: 2008年11月20日(木) 18:30 から
■場所: 慶應義塾大学理工学部(矢上キャンパス)
    25棟-601教室【25棟6階.24棟との間の階段隣】
------------------------------------------------------------------
■話者: 鈴木宏哉 (慶應義塾大学大学院理工学研究科)
------------------------------------------------------------------
■題名:統計量に着目した動向情報抽出・意見分析システムの構築
------------------------------------------------------------------
■概要:

NTCIR は情報検索や質問応答など「情報アクセス技術」に関する評
価型ワークショップであり,一年半に一度のペースで開催され,
2007年6年に始まった第7回 NTCIR ワークショップ (NTCIR-7)は,
本年12月に最終成果報告会を迎える.今回の NTCIR-7 で,我々の
研究室(斎藤博昭研究室)では,「動向情報の要約と可視化」とい
う研究課題に取り組む Multimodal Summarization of Trends 
(MuST) タスク,「意見分析」を行う Multi-Lingual Opinion 
Analysis Task (MOAT) の二つのタスクに参加した.本発表ではそ
れぞれのタスクに参加したシステムを紹介し,その結果と評価につ
いて述べる.

------------------------------------------------------------------
■アクセス情報:
 ●矢上キャンパス内の案内
      【25棟-601教室】
   キャンパスマップ
    http://www.keio.ac.jp/ja/access/yagami.html
   で,(11)の建屋が25棟です.24棟の1階ピロティから
   25棟に入り,入ってすぐのエレベータで6階まで
   お上がりください.降りた正面の階段右側の教室です.
   (警備室に寄る必要はありません.直接,当該教室まで
   お越しください)
 ●矢上キャンパスまでの案内
   【慶應義塾大学理工学部(矢上キャンパス)】
  ・東急東横線日吉駅より徒歩15分程度.
    綱島街道を渋谷方向に進み,2つめの信号(仲の谷交差点)
   で右折.細い道に入って直進してください.しばらく行くと,
   矢上キャンパス入口の緩い坂道(スロープ)があります.
    日吉駅前の銀杏並木のあるキャンパス(日吉キャンパス)を
   突き抜けるルートもありますが,慣れないと迷い易いので
   御注意ください.
   地図は
     http://www.keio.ac.jp/ja/access/yagami.html
   もしくは,住所
       横浜市港北区日吉3−14−1
   で,地図検索してください.
  ・もしくは,JR横須賀線,新川崎駅よりタクシーで7分程度.
------------------------------------------------------------------
■食事など:
  キャンパスマップで(3)の建屋(創想館:14棟)の1階に,
  売店,自動販売機,喫茶コーナー(軽食あり)があります.
------------------------------------------------------------------


第 348 回 PTT report

参加者:(まだまとめていません)
質疑応答:

<意見分析>
Q. どうやってコンテストを行うのか?
A. システムそのものを送るのではなく,タスク課題のデータが送られてくる形式

Q. どの辺が効くのか
A. 全形態素の素性が最も有効

Q. 学習データの素性はどうやって選んだのか?
A. 予備実験はしたが,比較的一般的なもの

Q. 逆にいえば,意見に特化したものはないのか?
A. 意見文特有の構造を学習するために変形の形態素 2-gramなどを使っている
A. 意見文の極性判定にも同じ素性をつかっているが,より極性判定に向いた素性を
   探す必要がある

Q. 極性に対して,特徴的な単語はあるのか?
A. 「悪い」などの単語がネガティブな極性をとる

Q. 意図した形態素がやはり特徴的だったというのはわかるが,意外な結果というのは
   ないか?
A. 今回の課題の例ではないが,例えば「大きい」という単語は「テレビの画面が大きい」
   の場合はポジティブな表現であるが,「携帯電話が大きい」などの場合はネガティブ
   というように文脈によって極性は変わってしまう

Q. SVMをつかっているということだが,カーネルは線形カーネル?
A. 多項式の方が良いと考えられるが,予備実験の結果では線形が良い結果を出した

Q. 実世界では,精度,再現率,実際にはどちらが重要視されるのか?
A. 意見文を漏らさず集めたい場合は再現率を,確実に意見文と言えるものだけを集めたい
   場合は精度をというようにシステムの用途によって異なる

Q. 複数システムを使うのはどうか?
A. 複数のシステムの結果に対して重み付けや多数決を使うやり方は有効

Q. 人間が学習させると高得点か
A. 意見文の判定は人間でも曖昧性があるため,100% の精度にはならない.そのため,
   今回のコンテストでは三人の回答作成者がタグ付けをしている

Q. コンテストにはどんなところが参加するのか
A. 企業・大学どちらも参加します.また言語横断情報検索などのタスクでは海外からの
   参加もある.

Q. 上位のチームのシステムは公開されるのか
A. 意見分析・動向情報のタスクでは公開されていない.ただし情報検索タスクなどでは
   別々のチームが作ったシステムのモジュールを組み合わせる試みがなされていて,
   組み合わせによる性能の向上も見られた
A. システムが公開される場合でも辞書などには著作権が絡むので共有は難しい

Q. 辞書はつかっていない?
A. 今回のシステムの場合,コーパスは使っているが,辞書は使っていない.

Q. コーパスが増えるとスコアはよくなるのか
A. 学習ベースのシステムなのでコーパスを増やす事でスコアを改善する事は可能

<動向情報>
Q. 有効桁数の問題があるのでは
A. 新聞記事などでは「○○万台」のように細かい数字が切り捨てられるため,
   正確な数値を求める事は難しい

Q. 人間が行えば満点がとれるのか
A. こちらのタスクでは可能.ただし,指数などの単位がなかったものは難しかった

Q. 精度の違いは?
A. 単純な統計量の抽出精度だけでなく,「前月比○○万台増」のような比較表現を
   含む文からの統計量の抽出によって違いがでる

Q. あまり統計情報として公開されないものが取れるとおもしろそうだ