ここでは「定期設定」メニューに関する概要と、重要な概念についてお伝えします。
「定期設定」とは?
「定期設定」メニューでは、スクレイピングの自動収集スケジュールの設定を行うことが主な目的です。
また、詳細ページのデータを大量に収集したい場合にも利用します。
「定期設定」メニューの役割
テンプレートの「カスタム収集」機能を利用する場合にも、このメニューの一部を利用します。
テンプレートを使わない場合は、「データ収集」でパーサーを作成の上、このメニューでパーサーをセットしてスケジュール設定などを行いスクレイピングを実行することになります。
大量データを収集したい場合は「データ収集」で作成したパーサー単独では収集できず、このメニューを使って複数のパーサーを組み合わせて実行する必要があるため、このメニューを使います。
「定期設定」メニューで行う設定
パーサーをセットしたり、スケジュール設定をしたりします。
具体的には、必要に応じて「詳細ページパーサー」「一覧ページパーサー」「ページネーションパーサー」をセットし、収集対象のサイトURLや収集スケジュールの設定を行います。
重要な概念
「定期設定」メニューでデータ収集を行うにあたり重要な概念を説明いたします。
パーサーの構成
「データ収集」で作成したパーサーを「定期設定」のスケジュールにセットすることで自動定期取得を可能にしますが、その際に使われるパーサーの組み合わせパターンは以下の通りです。
対象サイトのうち、どの範囲のページを取得したいかによって必要なパーサーが異なります。
・詳細パーサーのみ
・一覧パーサーのみ
・詳細パーサー+一覧パーサー(例:検索結果1ページ目の全店舗詳細を取得)
・一覧パーサー+ページネーションパーサー(例:検索結果全ページの店舗URLや名前リストを取得)
・詳細パーサー+一覧パーサー+ページネーションパーサー(例:検索結果全ページの店舗詳細ページも全て取得)

URL選択とページネーションパーサー
データの定期自動取得を設定する「スケジュール追加」画面にて、URL選択を行います。
このURL選択は「データ収集」の際の「URL」とは異なります。
「データ収集」の「URL」がスクレイピングモデル生成のためにページを学習させるためのものであることに対し、この「URL選択」はスクレイピング対象とする全てのページURLを入力する必要があります。
検索結果全ての詳細ページを取得したい場合、一覧URLを全ページ分入力すればOKです。
詳細ページは自動で取得されます。
この場合に必要なものは以下の通りです。
・ページネーションパーサー →1番上の「パーサー選択」にセットする
(もしくは一覧URL全ページ分 →URL選択に入力する)
・一覧パーサー →次の「パーサー選択」にセットする
・詳細パーサー →1番下の「パーサー選択」にセットする
ページネーションとは
「詳細ページ」や「一覧ページ」とは異なりページそのものではありません。
一つのコンテンツ(ページ)を複数ページに分割して表示するURL構成のことです。
具体的には、店舗検索結果を「1ページ目、2ページ目…」と分割して表示するURLのまとまりのことです。
ページネーションパーサーを作れば自動的に以下のようなURLが生成されますし、それが難しい場合は欲しいページ分のURLの連番をスプレッドシートなどで作成して入力する必要があるというわけです。
▼ 例えば、以下のようなURLのまとまりです。
1ページ目:https://example.jp/shop/
2ページ目:https://example.jp/shop/PN2
3ページ目:https://example.jp/shop/PN3
4ページ目:https://example.jp/shop/PN4
5ページ目:https://example.jp/shop/PN5

