計算言語学
出典: フリー百科事典『ウィキペディア(Wikipedia)』
計算言語学(けいさんげんごがく, Computational Linguistics)とは、言語学の一分野で、コンピュータの観点からの自然言語の論理モデリングを中心としている。このモデリング自体は言語学に限定されているわけではなく、他にもコンピュータ科学、人工知能、認知心理学などが研究に参加している。
目次 |
[編集] 自然言語処理
実際の言語データ(コーパス)から計算によって言語の特徴を取り出し、言語の分析を行なう。
[編集] タグ付きコーパス
コーパスに情報を付加することでより複雑で正確な分析を行う。 例:
<author>夏目漱石</author>
[編集] 統計手法
[編集] 出現頻度
文字、単語、単語の品詞、複数単語の組などの頻度を総数で割る。
[編集] n-gram
1つのものだけを数えるのでなく、隣接するものの頻度を数える。ある単位の生起が直後 n 個の単位にだけ依存すると考える言語モデル。
[編集] 共起頻度
一定区間に n 個の単位が出現(共起)する頻度。二つの単語が一緒に出て来くる共起のしやすさを計る。作成された単語のクラスタは、例えば、統計ベースの言語処理において「データ・スパースネス問題」の対処に用いたり、新聞の関連記事を検索する際に有効である。
[編集] 応用
[編集] 現在の研究課題
計算言語学の主な研究課題には以下のものがある。
- コンピュータ支援コーパス言語学
- 自然言語のパーサ設計
- 品詞判別
- Definition of specialized logics like resource logics for NLP
- Research in the relation between formal and natural languages in general
- 機械翻訳
- 自動要約