概要
- Web ページを内容毎に自動的に分類したい!
と考えた時に、
どの様にその処理を行なえば良いか
と言うのを今日調べてたので、一度考えを整理する意味でも書き出してみます。
Web を内容毎に自動分類する上での処理の流れ
基本的にはプログラミング言語を問わず、下記の様な流れになるっぽい:
- Web ページから本文を抽出する
- 抽出した本文を分かち書きをする (特に日本語の場合)
- 分かち書きをしたテキストを、ベクトルやスコアなどに変換する
- そのベクトルやスコアから、関連度を抽出する
- そして最後に、その関連度を利用して分類する
そして多分、どれも機械学習とかニューラルネットワークを絡ませる事は出来るんだろうけど、まあ、その手のヤツは 3 番から絡ませた方が良いんでね? と個人的には思います。
以上
僕自身、機械学習についてまだ良く判ってないんで、あんまりこの内容も正確じゃないですが、ま、多分こんな感じの流れになるんだろうな、と、今のところは思ってます。
なんか突っ込みとか有れば、はてブコメント等でよろしくお願いしますです。はい。