文書分類
文書分類(ぶんしょぶんるい、英: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。
技法
[編集]文書分類に使われる技法としては、以下のものがある。
- 単純ベイズ分類器
- tf-idf
- 潜在意味解析
- サポートベクターマシン
- ニューラルネットワーク
- k近傍法
- 決定木(例えばID3)
- コンセプトマイニング
他にも、自然言語処理に基づく手法がある。
応用
[編集]電子メールのスパムを分離するスパムフィルタに応用されている。
関連項目
[編集]参考文献
[編集]- Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1]
- Introduction to document classification
- Bibliography on Automated Text Categorization
- Bibliography on Query Classification
- TechTC - Technion Repository of Text Categorization Datasets
- David D. Lewis's Datasets
Text is available under the CC BY-SA 4.0 license; additional terms may apply.
Images, videos and audio are available under their respective licenses.