ここでは「データ収集」メニューに関する概要と、重要な概念についてお伝えします。
「データ収集」とは?
「データ収集」メニューでは、スクレイピングモデルの生成を行うことが主な目的です。
「データ収集」メニューの役割
テンプレートを使う場合は既にスクレイピングモデルが作成されているものを使うことになるため、このメニューは利用しません。
テンプレートを使わない場合は、このメニューでスクレイピングモデルを生成し、スクレイピングを実行することになります。
さらに、自動で定期的にスクレイピングを実施したい場合は、「データ収集」メニューとあわせて「定期設定」メニューのスケジュール機能も使うことになります。
「データ収集」メニューで行う設定
スクレイピングモデル生成に必要な設定を行います。
具体的には、スクレイピングをしたい対象のサイトページのURLや、スクレイピングモデルのタイプ(種類)の選択、取得データに関する調整や、取得データの確認などです。
重要な概念
「データ収集」メニューでスクレイピングモデルを生成するにあたり重要な概念を説明いたします。
3つのページ構成
スクレイピング対象とするサイトページは、一般的に以下の3つのページ構造を利用して作られています。
例として、店舗検索ポータルサイトをイメージして考えてみましょう。
詳細ページ
一つのページに多くの項目が一つずつ存在するようなページ構成のことです。
具体的には、個々の店舗の詳細ページなどが該当します。
▼ ホットペッパービューティーの例

一覧ページ
一つのページに少ない項目が複数ずつ存在するようなページ構成のことです。
具体的には、店舗検索結果の店舗一覧ページなどが該当します。
▼ ホットペッパービューティーの例

ページネーション
「詳細ページ」や「一覧ページ」とは異なりページそのものではありません。
一つのコンテンツ(ページ)を複数ページに分割して表示するURL構成のことです。
具体的には、店舗検索結果を「1ページ目、2ページ目…」と分割して表示するURLのまとまりのことです。
▼ 例えば、以下のようなURLのまとまりです。
1ページ目:https://example.jp/shop/
2ページ目:https://example.jp/shop/PN2
3ページ目:https://example.jp/shop/PN3
4ページ目:https://example.jp/shop/PN4
5ページ目:https://example.jp/shop/PN5
▼ ホットペッパービューティーの例

抽出タイプの選択
「データ収集」メニューにてスクレイピングモデルを生成する際に、「取得開始」を押下した後に表示される「抽出タイプ選択」で、「詳細ページ」「一覧ページ」「ページネーション」と、目的に合ったタイプを選びます。
そのために、上記のようなページの特徴については知っておいた方が良いでしょう。
▼ 抽出タイプ選択画面


