入門ガイド
スクレイピング前準備 〜開始(Scheduler)
このガイドでは、データ収集(スクレイピング)を開始するまでの準備から実際に収集開始するまでの手順について解説していきます。
スケジューラー(Scheduler)の作成
この章ではスケジューラーの作成を行っていきます。スケジューラーとは、ここまで作ってきたページデータ(パーサー)を使用して、データ収集をするための設定です。スケジューラーを使用して、どのURLページを取得するのか、であったり、週に1回の定期取得などを設定することができます。
基本作業
詳細ページのみ取得したい場合

scd_name
ここにどのデータか、が分かるように任意の名前を入力してください
↓
Schedule
データ収集を開始したい日付など指定がある場合は設定してください。指定がない場合は、’select data’の「1」にチェックを入れてOKを押してください
↓
Primary Proc
使用したいExtractorで作成した詳細パーサーを選択
↓
Primary Use Cols
特に指定はないので、sourse_urlを指定してください
↓
Primary Proc Select
取得したページURLを全て入力して
→Add→OK
↓
Registerで完了
↓
定期取得ボタン
一回単発の取得であればOFFに
毎回定期取得した場合(Scheduleで定期取得を設定した場合)はONに

↓
一時的にデータを保存したい場合はSave
そのままデータ収集を開始したい場合はStart Now

一覧ページ→詳細ページを取得したい場合

scd_name
ここにどのデータか、が分かるように任意の名前を入力してください
↓
Schedule
データ収集を開始したい日付など指定がある場合は設定してください。指定がない場合は、’select data’の「1」にチェックを入れてOKを押してください
↓
Primary Proc
使用したいExtractorで作成した一覧パーサーを選択
↓
Primary Use Cols
このあと指定する詳細パーサーのURLと紐付けるURL項目(詳細パーサーの同じURLが記載されている項目)を指定。基本はここの項目ではurlを指定してください
(異なる場合は一覧・詳細パーサーのCHECKで同じURLがある項目を確認)
↓
Primary Proc Select
取得したページURLを全て入力して
→Add→OK
↓
subsequentProc
Processor
使用したいExtractorで作成した詳細パーサーを選択
↓
subsequentProc
Please select use cols
ここに前述の一覧パーサー設定時のPrimary Use Colsと紐づくURL項目を選択。基本はsource_urlを選択。
↓
Registerで完了
↓
定期取得ボタン
一回単発の取得であればOFFに
毎回定期取得した場合(Scheduleで定期取得を設定した場合)はONに

↓
一時的にデータを保存したい場合はSave
そのままデータ収集を開始したい場合はStart Now

これでスケジューラーでデータ収集が開始されました。
それでは次にSTEP.5の
を学んでいきましょう!