Hatena Blog Tags

TermExtract

(コンピュータ)
たーむえくすとらくと

専門用語(キーワード)自動抽出用Perlモジュール

 日本語の文章中から単語を切り出す定番のソフトとして、「茶筅」や「案山子」がありますが、そのまま専門用語の抽出に使うには次の2つの問題があります。
 ひとつは、複合語に対応していないことです。専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなります。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難があります。
 もうひとつは、どの用語が重要であるか判断する仕組みを持たないことです。
 その問題点を解決したソフトに東京大学・中川裕志教授、横浜国立大学・森辰則助教授が作成した「専門用語自動抽出システム」があります。それは、1)「茶筅」の形態素解析結果を複合語に組み立て、2)その複合語(単語の場合もある)を重要度の高い順に返すものです。
 TermExtractは、この「専門用語自動抽出システム」を東京大学情報基盤センター・中川裕志教授の教示を受け、東京大学経済学部・前田朗が全面的に組みなおしたものです。
 また、形態素解析によらない、英文及び中文の専門用語自動抽出機能なども追加されています。

専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説

ChaSen Kakasi

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

ネットで話題

もっと見る