形態素解析
花子はトイレに住んでいます。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓
花子/は/トイレ/に/住ん/で/い/ます
のように、文章(自然言語)を句(形態素)に分割することを形態素解析といいます。
形態素とは、言葉が意味を持つまとまりの単語の最小単位のことです。
どういうところに使われているかというと、インターネットの検索エンジンなどに使われています。たとえば、
花子/は/トイレ/に/住ん/で/い/ます
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
花子 トイレ 住んでいる
のように助動詞などを省き、データ処理の効率を上げたり、検索の精度を上げるために役立ちます。
また、英語など、スペースで区切られる言語は形態素解析が容易に行えますが、日本語や中国語などの言語は形態素解析の難しい言語です。
形態素解析には元となる辞書データが必要で、その辞書によって語彙とかが変わる。同音異義語とか。
形態素解析の利用目的に応じて必要な辞書を取捨選択することがユーザ的には気にするところなんじゃないかな?いやー全くわからない!