差出人(幹事):
113 文京区本郷 7-3-1
東京大学工学部計数工学科 岩崎英哉
03-3812-2111 ext. 7411
iwasaki@wadalab.t.u-tokyo.ac.jp
我々の周りには,英語の場合に比べて日本語の文章を処理するツールは少 ない.日本語ソフトウェア開発環境を構築するには,日本語文が「わかち書き」 されていないことが,その実現を難しくしている.
日本語処理ツールを作成するには,「文節の区切り」や「品詞」といった 情報が必要であると思われた.先ず,その情報を得るため,我々は Wnn4.1 の ライブラリを利用して「仮名漢字逆変換システム」を作成し,本発表で紹介し た.
逆変換システムとは,既存のツールで作成された日本語文書(漢字仮名混在) を入力し,漢字から仮名に変換する際,文節の区切りや品詞といった情報を取 得し S式の形式でファイルに出力するシステムである.本システムの構成,機 能,問題点,作動モードについて説明し,さらに S式ファイルの加工のための 複合品詞の検出ツールを挙げ,Wnn の辞書を成長させる試みについて述べた.
以上のような逆変換システムの概要とその実現方法を述べた後,このシス テムが出力する S式ファイルに含まれる「読み」「区切り」「品詞」を利用し た各種ツールの報告を行なった.
(1) 常用漢字チェッカ (自分の使用した漢字の難度を測る)
(2) jLaTeX ルビ挿入 (漢字の文章に「よみがな」をつける)
(3) jLaTeX 索引生成
(4) 定義情報の抽出
(「が」「は」や「である」などの言い回しの検査)
(5) 「ゆれ」の検出とその除去
(6) 逆変換システムのシェルへの応用
(漢字のファイル,ディレクトリに対するアクセスの簡単化)
発表に不慣れでお聞き苦しい点があったと思いますが、以後の研究を進め る上で貴重な意見を多くいただき,大変参考になりました.参加者の皆さんに 感謝致します。