MENU
  • HOME
  • 取引実績
  • 会社概要
  • 資料DL
  • お問い合わせ
  • FAQ
  • BigQuery記事
  • Struccle記事
データ流通、検索エンジン開発のプロフェッショナル
DataStructor
  • HOME
  • 取引実績
  • 会社概要
  • 資料DL
  • お問い合わせ
  • FAQ
  • BigQuery記事
  • Struccle記事
DataStructor
  • HOME
  • 取引実績
  • 会社概要
  • 資料DL
  • お問い合わせ
  • FAQ
  • BigQuery記事
  • Struccle記事
  1. ホーム
  2. BigQuery
  3. BigQuery学習教材
  4. BigQuery入門!無料データでSQLの近似集計関数をマスター

BigQuery入門!無料データでSQLの近似集計関数をマスター

2024 11/28
BigQuery BigQuery学習教材
2024年9月13日2024年11月28日
目次

記事の対象者と解消できるお悩み

【対象者】

プログラミング未経験のビジネス職

【興味関心】

  1. データ分析の基本
  2. SQLの基礎知識
  3. 無料でデータ分析を体験
  4. BigQueryの使い方
  5. 実践的なSQL分析例

【解消できるお悩み】

  1. データ分析に興味はあるけど、難しそうで何から始めればいいか分からない…
  2. 近似集計って何?
  3. プログラミング経験がない自分でもSQLを理解できるか不安…
  4. BigQueryってどんなツール?無料で使えるの?
  5. 実際にデータを分析してみたいけど、どんなことができるの?

記事作成者

【人物】株式会社志庵 代表取締役 佐藤 光 起業6年目

【経歴】株式会社光通信➜光通信同期と起業➜データアナリスト転職➜SaaSで2度目起業

【会社実績】

SaaS 資金調達無しARR2億円

SaaS GMV200億円

【内容】自社AaaSであるStruccle、webスクレイピング、BigQueryに関する記事を作成

各種用語

  • ARR(Annual Recurring Revenue)
    • サブスクリプションサービスの年間売上※当社はSaaS売上
  • Struccle(ストラクル)
    • 株式会社志庵が独自開発しているAaaS
  • AaaS(アース)
    • Data Analytics as a Serviceの意
  • SaaS(サース)
    • Software as a Serviceの意
  • GoogleCloudPlatform
    • Googleが提供するクラウドプラットフォーム。この中に様々なサービスが存在する。
  • GCP(ジーシーピー)
    • GoogleCloudPlatformの略
  • BigQuery(ビッグクエリ)
    • 上記GCPの中に含まれるデータ分析基盤サービス
  • SQL(エスキューエル)
    • データベースを操作するプログラミング言語
  • クエリ
    • SQLで記述した命令文
    • クエリ例)
      • SQL構文のクエリ⬇
        • SELECT item_name, price FROM sales_table where price >= 1000;
        • 上記クエリ(命令文)の意味としては「売上テーブル(sales_table)から価格(price)が1000円以上の商品名(item_name)と価格(price)を抽出する」
  • ペタバイト
    • データの単位 ペタバイト=1000テラバイト=約100兆行のデータ

概要

データ分析に興味があるけど、難しそうでなかなか手が出せない…そんな悩みをお持ちのあなたへ。Google CloudのBigQueryは、強力なデータ分析ツールでありながら、初心者でも扱いやすいインターフェースと無料枠を提供しています。さらに、BigQueryには無料で利用できる豊富な公開データセットが用意されており、実際にデータを触りながらSQLを学ぶことができます。

この記事では、BigQueryの基本的な使い方から、SQLの基本構文、そしてBigQueryの公開データを使った実践的な分析例まで、ステップバイステップで解説します。プログラミング経験がなくても、この記事を読めば、BigQueryを使ってデータ分析の第一歩を踏み出せるはずです。

目次

  1. BigQueryとは?
  2. BigQueryを使うメリット
  3. BigQueryを始める3ステップ
    1. 1. Google Cloud Platformアカウントの作成
    2. 2. BigQueryプロジェクトの作成
    3. 3. 公開データセットの選択
  4. BigQueryでよく使う近似集計関数
    1. APPROX_COUNT_DISTINCT
    2. APPROX_QUANTILES
    3. APPROX_TOP_COUNT
    4. APPROX_TOP_SUM
  5. BigQuery公開データで実践!SQL分析例
  6. FAQ:BigQueryに関するよくある質問
  7. まとめ:BigQueryでデータ分析の世界へ飛び込もう!

1. BigQueryとは?

BigQueryは、Google Cloud Platformが提供するフルマネージド型のサーバーレスデータウェアハウスです。ペタバイト規模のデータに対しても、高速なSQLクエリを実行し、分析することができます。従来のデータウェアハウスと比べて、圧倒的な処理速度とスケーラビリティ、コストパフォーマンスの高さが特徴です。

BigQueryは、データの保存、処理、分析といった作業をすべてGoogleが管理するため、ユーザーはインフラストラクチャの管理に煩わされることなく、データ分析に集中できます。また、Google Cloud Platformの他のサービスと連携することで、より高度なデータ活用が可能になります。

2. BigQueryを使うメリット

BigQueryには、以下のようなメリットがあります。

  • 高速なクエリ処理: 大規模なデータに対しても高速なクエリ処理を実現します。
  • スケーラビリティ: データ量やユーザー数が増加しても、柔軟に対応できます。
  • コストパフォーマンスの高さ: 従量課金制なので、必要な時に必要なだけ利用でき、コストを抑えられます。
  • 使いやすさ: サーバーレスであるため、インフラストラクチャの管理が不要で、簡単に使い始めることができます。
  • 豊富な分析機能: SQL、機械学習、地理空間分析など、様々な分析機能が提供されています。
  • 高いセキュリティ: Google Cloudの強固なセキュリティ基盤により、安心してデータを管理できます。
  • 無料枠: 毎月1TBまでのクエリ処理と、毎月10GBまでのストレージが無料で利用できます。
  • 豊富な公開データセット: 様々な分野のデータが無料で公開されており、データ分析の学習や実験に利用できます。

3. BigQueryを始める3ステップ

BigQueryを始めるには、以下の3つのステップが必要です。

3.1 ステップ1:Google Cloud Platformアカウントの作成

BigQueryを利用するには、Google Cloud Platformのアカウントが必要です。まだアカウントをお持ちでない方は、Google Cloud Platformのウェブサイトからアカウントを作成しましょう。無料トライアルも利用できます。

3.2 ステップ2:BigQueryプロジェクトの作成

Google Cloud Platformのアカウントを作成したら、BigQueryプロジェクトを作成します。BigQueryプロジェクトは、BigQueryのリソースを管理するための単位です。プロジェクトごとにデータセットやテーブルを管理することができます。

Google Cloud Platformのコンソールにログインし、プロジェクト選択メニューから「新しいプロジェクト」を選択し、プロジェクト名を入力して「作成」をクリックします。

3.3 ステップ3:公開データセットの選択

BigQueryには、様々な分野のデータが無料で公開されています。これらの公開データセットは、BigQueryコンソールの「公開データセット」タブからアクセスできます。データ分析の練習に最適なデータセットを探してみましょう。

4. BigQueryでよく使う近似集計関数

近似集計関数は、正確な値ではなく、近似値を高速に計算する関数です。大量のデータを扱う場合に、処理時間を短縮するために利用されます。BigQueryでは多様な近似集計関数が用意されています。ここでは、よく使われる近似集計関数をいくつか紹介します。

4.1 APPROX_COUNT_DISTINCT

指定された式の異なる値のおおよその数を返します。正確なカウントよりも高速に計算できます。

構文:

APPROX_COUNT_DISTINCT(expression)

例: ordersテーブルから、注文した顧客の概算数を計算する

SELECT APPROX_COUNT_DISTINCT(customer_id) AS approx_unique_customers FROM orders;

4.2 APPROX_QUANTILES

指定された式の値の分布を、指定された数の分位数で分割します。正確な分位数よりも高速に計算できます。

構文:

APPROX_QUANTILES(expression, number_of_quantiles)

例: productsテーブルから、価格の近似的な四分位数を計算する

SELECT APPROX_QUANTILES(price, 4) AS price_quantiles FROM products;

4.3 APPROX_TOP_COUNT

指定された式の値の中で、出現頻度が高い上位N個の値とその出現回数を返します。正確なカウントよりも高速に計算できます。

構文:

APPROX_TOP_COUNT(expression, n)

例: ordersテーブルから、注文数が最も多い上位5つの商品とその注文数を計算する

SELECT APPROX_TOP_COUNT(product_id, 5) AS top_products FROM orders;

4.4 APPROX_TOP_SUM

指定された式の値の中で、合計値が大きい上位N個の値とその合計値を返します。正確な合計よりも高速に計算できます。

構文:

APPROX_TOP_SUM(expression, n)

例: salesテーブルから、売上金額が最も大きい上位10の顧客とその売上金額を計算する

SELECT APPROX_TOP_SUM(customer_id, 10) AS top_customers FROM sales;

5. BigQuery公開データで実践!SQL分析例

ここでは、BigQueryの公開データセット「GitHub」を使って、簡単なSQL分析例を紹介します。このデータセットには、GitHub上のリポジトリやユーザーに関する情報が格納されています。

例:特定のプログラミング言語が使われているリポジトリの数を概算で求める

SELECT
  APPROX_COUNT_DISTINCT(repo_name) AS approx_repo_count
FROM bigquery-public-data.github_repos.languages
,unnest(language) lang
WHERE lang.name = 'Python'

このクエリを実行するとGitHubでPythonが使われているリポジトリの概算数が表示されます。

このクエリでは近似集計関数 `APPROX_COUNT_DISTINCT` を使用しています。

6. FAQ:BigQueryに関するよくある質問

Q1. BigQueryの無料枠を超えて利用すると、どのくらい費用がかかりますか?

無料枠を超えた場合従量課金制で料金が発生します。

料金は処理したデータ量やストレージ容量などによって異なります。

詳しくはBigQueryの料金ページをご確認ください。

Q2. BigQueryで使えるSQLは他のデータベースと同じですか?

BigQueryは標準SQLをサポートしており、他のデータベースで学んだSQLの知識を活かすことができます。

ただし、BigQuery独自の関数や構文も存在するため、BigQueryのドキュメントで詳細を確認することをおすすめします。

Q3. SQLの学習にはどのような教材がありますか?

SQLの学習にはオンライン学習サイト、書籍、動画教材など、様々な教材があります。

初心者向けの教材から、上級者向けの教材まで、レベルに合わせて選ぶことができます。

Googleが提供するBigQueryのチュートリアルもSQLの学習に役立ちます。

7. まとめ:BigQueryでデータ分析の世界へ飛び込もう!

BigQueryは強力なデータ分析ツールでありながら、初心者でも扱いやすいインターフェースと無料枠を提供しています。

無料公開データセットを活用すれば、費用をかけずにSQLを学び、データ分析のスキルを磨くことができます。

この記事を参考にBigQueryでデータ分析の世界へ飛び込んでみましょう!

BigQuery導入サポート、転職検討中の方はお問い合わせフォームからご相談くださいませ。

誠心誠意精一杯対応いたします。

【参考URL】

GoogleCloudPlatform:https://console.cloud.google.com/welcome/new

BigQuery:https://cloud.google.com/bigquery?hl=ja

BigQueryリリース情報:https://cloud.google.com/bigquery/docs/release-notes

BigQuery料金:https://cloud.google.com/bigquery/pricing

BigQuery料金無料枠:https://cloud.google.com/bigquery/pricing?hl=ja#free-tier

Google Cloud活用事例:https://cloud.google.com/customers/index.html?hl=ja#

Looker Studio:https://cloud.google.com/looker-studio?hl=ja

Looker Studioサンプル:https://cloud.google.com/bigquery/docs/visualize-looker-studio?hl=ja

人気記事

  • BigQueryの無料枠を活用しよう!制限と注意点、活用方法を解説
  • BigQueryでエラー解決!よくあるエラーと対処法
  • BigQueryのレベル別学習リソースまとめ!初心者から上級者まで役立つ情報源
  • 【SUUMOスクレイピング】Struccleで物件データを全件収集
  • BigQuery入門!無料データでSQLの基本文字列関数をマスター
BigQuery BigQuery学習教材
BigQuery 初心者
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次
カテゴリー
  • AI_Agent (117)
    • Agent開発 (117)
  • BigQuery (100)
    • BigQueryTips (11)
    • BigQueryでデータ分析 (49)
    • BigQueryのFAQ (1)
    • BigQuery入門 (8)
    • BigQuery学習教材 (22)
    • BigQuery導入ガイド (3)
    • BigQuery最新情報 (3)
    • BigQuery活用事例 (4)
  • Struccle (153)
    • Struccleでスクレイピング (10)
      • suumoの物件データを収集&分析 (1)
      • アニマルジョブの電話番号、メールアドレスを全件収集 (1)
      • データ集計 (6)
      • ホットペッパービューティーのヘアサロンデータを収集&分析 (1)
      • 食べログの飲食店データを収集&分析 (1)
    • Struccleデータ料金事例 (142)
      • 商品分析 (15)
      • 営業リスト (88)
      • 競合分析&市場調査 (58)
      • 自動車 (11)
      • 自社活用 (7)
    • Struccle活用企業様の紹介 (1)
  • 当ブログのコーディング実行環境設定 (2)
目次