Web を内容毎に自動分類する上での処理の流れ

読了まで:約0分


概要

  • Web ページを内容毎に自動的に分類したい!

考えた時に、

どの様にその処理を行なえば良いか

言うのを今日調べてたので、一度考えを整理する意味でも書き出してみます。

Web を内容毎に自動分類する上での処理の流れ

基本的にはプログラミング言語を問わず、下記の様な流れになるっぽい:

  1. Web ページから本文を抽出する
  2. 抽出した本文を分かち書きをする (特に日本語の場合)
  3. 分かち書きをしたテキストを、ベクトルやスコアなどに変換する
  4. そのベクトルやスコアから、関連度を抽出する
  5. そして最後に、その関連度を利用して分類する

そして多分、どれも機械学習とかニューラルネットワークを絡ませる事は出来るんだろうけど、まあ、その手のヤツは 3 番から絡ませた方が良いんでね?個人的には思います。

以上

僕自身、機械学習についてまだ良く判ってないんで、あんまりこの内容も正確じゃないですが、ま、多分こんな感じの流れになるんだろうな、と、今のところは思ってます。

なんか突っ込みとか有れば、はてブコメント等でよろしくお願いしますです。はい。

アバターアイコン兼ロゴ

にゃるら(カラクリスタ)

『輝かしい青春』なんて失かった人。次に備えて待機中。

今は趣味でプログラミングをして生活しています。