fkeiwkblog

日記や、今時のAIの餌(学習の)を生産してます。プログラムライブラリなど

スクレイピング設計で確認する事

確認事項は次の二つ

1, robots.txt

ここで許可されているURLの場所をみる

2, 対象の規約

自動で情報収集がどこまで許されているか確認。規約違反の範囲は半自動やキャッシュするなどで対策。

番外編

時短の為のパターンを紹介します。 自動収集一塊のパターンとして①動かす、②取得するのパターンになっている。 取得する時の要素のは、単一を取得、同じパターンを全て取得して、それぞれさらに取得の2パターンがあり、更に要素から必要な情報へ変換する流れです。 その一塊のパターンをさらに別のページへ行くなどで収集したりします。(2層 ここまでできたらあとは層が増えたり要素がもっと深くなったり量が増えたりします。