記事の対象者と解消できるお悩み
【対象者】
プログラミング未経験のビジネス職
【興味関心】
- データ分析の基本
- SQLの基礎知識
- 無料でデータ分析を体験
- BigQueryの使い方
- 実践的なSQL分析例
【解消できるお悩み】
- データ分析に興味はあるけど、難しそうで何から始めればいいか分からない…
- 近似集計って何?
- プログラミング経験がない自分でもSQLを理解できるか不安…
- BigQueryってどんなツール?無料で使えるの?
- 実際にデータを分析してみたいけど、どんなことができるの?
記事作成者
【人物】株式会社志庵 代表取締役 佐藤 光 起業6年目
【経歴】株式会社光通信➜光通信同期と起業➜データアナリスト転職➜SaaSで2度目起業
【会社実績】
SaaS 資金調達無しARR2億円
SaaS GMV200億円
【内容】自社AaaSであるStruccle、webスクレイピング、BigQueryに関する記事を作成
各種用語
- ARR(Annual Recurring Revenue)
- サブスクリプションサービスの年間売上※当社はSaaS売上
- Struccle(ストラクル)
- 株式会社志庵が独自開発しているAaaS
- AaaS(アース)
- Data Analytics as a Serviceの意
- SaaS(サース)
- Software as a Serviceの意
- GoogleCloudPlatform
- Googleが提供するクラウドプラットフォーム。この中に様々なサービスが存在する。
- GCP(ジーシーピー)
- GoogleCloudPlatformの略
- BigQuery(ビッグクエリ)
- 上記GCPの中に含まれるデータ分析基盤サービス
- SQL(エスキューエル)
- データベースを操作するプログラミング言語
- クエリ
- SQLで記述した命令文
- クエリ例)
- SQL構文のクエリ⬇
SELECT item_name, price FROM sales_table where price >= 1000;
- 上記クエリ(命令文)の意味としては「売上テーブル(sales_table)から価格(price)が1000円以上の商品名(item_name)と価格(price)を抽出する」
- SQL構文のクエリ⬇
- ペタバイト
- データの単位 ペタバイト=1000テラバイト=約100兆行のデータ
概要
データ分析に興味があるけど、難しそうでなかなか手が出せない…そんな悩みをお持ちのあなたへ。Google CloudのBigQueryは、強力なデータ分析ツールでありながら、初心者でも扱いやすいインターフェースと無料枠を提供しています。さらに、BigQueryには無料で利用できる豊富な公開データセットが用意されており、実際にデータを触りながらSQLを学ぶことができます。
この記事では、BigQueryの基本的な使い方から、SQLの基本構文、そしてBigQueryの公開データを使った実践的な分析例まで、ステップバイステップで解説します。プログラミング経験がなくても、この記事を読めば、BigQueryを使ってデータ分析の第一歩を踏み出せるはずです。
目次
- BigQueryとは?
- BigQueryを使うメリット
- BigQueryを始める3ステップ
- BigQueryでよく使う近似集計関数
- BigQuery公開データで実践!SQL分析例
- FAQ:BigQueryに関するよくある質問
- まとめ:BigQueryでデータ分析の世界へ飛び込もう!
1. BigQueryとは?
BigQueryは、Google Cloud Platformが提供するフルマネージド型のサーバーレスデータウェアハウスです。ペタバイト規模のデータに対しても、高速なSQLクエリを実行し、分析することができます。従来のデータウェアハウスと比べて、圧倒的な処理速度とスケーラビリティ、コストパフォーマンスの高さが特徴です。
BigQueryは、データの保存、処理、分析といった作業をすべてGoogleが管理するため、ユーザーはインフラストラクチャの管理に煩わされることなく、データ分析に集中できます。また、Google Cloud Platformの他のサービスと連携することで、より高度なデータ活用が可能になります。
2. BigQueryを使うメリット
BigQueryには、以下のようなメリットがあります。
- 高速なクエリ処理: 大規模なデータに対しても高速なクエリ処理を実現します。
- スケーラビリティ: データ量やユーザー数が増加しても、柔軟に対応できます。
- コストパフォーマンスの高さ: 従量課金制なので、必要な時に必要なだけ利用でき、コストを抑えられます。
- 使いやすさ: サーバーレスであるため、インフラストラクチャの管理が不要で、簡単に使い始めることができます。
- 豊富な分析機能: SQL、機械学習、地理空間分析など、様々な分析機能が提供されています。
- 高いセキュリティ: Google Cloudの強固なセキュリティ基盤により、安心してデータを管理できます。
- 無料枠: 毎月1TBまでのクエリ処理と、毎月10GBまでのストレージが無料で利用できます。
- 豊富な公開データセット: 様々な分野のデータが無料で公開されており、データ分析の学習や実験に利用できます。
3. BigQueryを始める3ステップ
BigQueryを始めるには、以下の3つのステップが必要です。
3.1 ステップ1:Google Cloud Platformアカウントの作成
BigQueryを利用するには、Google Cloud Platformのアカウントが必要です。まだアカウントをお持ちでない方は、Google Cloud Platformのウェブサイトからアカウントを作成しましょう。無料トライアルも利用できます。
3.2 ステップ2:BigQueryプロジェクトの作成
Google Cloud Platformのアカウントを作成したら、BigQueryプロジェクトを作成します。BigQueryプロジェクトは、BigQueryのリソースを管理するための単位です。プロジェクトごとにデータセットやテーブルを管理することができます。
Google Cloud Platformのコンソールにログインし、プロジェクト選択メニューから「新しいプロジェクト」を選択し、プロジェクト名を入力して「作成」をクリックします。
3.3 ステップ3:公開データセットの選択
BigQueryには、様々な分野のデータが無料で公開されています。これらの公開データセットは、BigQueryコンソールの「公開データセット」タブからアクセスできます。データ分析の練習に最適なデータセットを探してみましょう。
4. BigQueryでよく使う近似集計関数
近似集計関数は、正確な値ではなく、近似値を高速に計算する関数です。大量のデータを扱う場合に、処理時間を短縮するために利用されます。BigQueryでは多様な近似集計関数が用意されています。ここでは、よく使われる近似集計関数をいくつか紹介します。
4.1 APPROX_COUNT_DISTINCT
指定された式の異なる値のおおよその数を返します。正確なカウントよりも高速に計算できます。
構文:
APPROX_COUNT_DISTINCT(expression)
例: ordersテーブルから、注文した顧客の概算数を計算する
SELECT APPROX_COUNT_DISTINCT(customer_id) AS approx_unique_customers FROM orders;
4.2 APPROX_QUANTILES
指定された式の値の分布を、指定された数の分位数で分割します。正確な分位数よりも高速に計算できます。
構文:
APPROX_QUANTILES(expression, number_of_quantiles)
例: productsテーブルから、価格の近似的な四分位数を計算する
SELECT APPROX_QUANTILES(price, 4) AS price_quantiles FROM products;
4.3 APPROX_TOP_COUNT
指定された式の値の中で、出現頻度が高い上位N個の値とその出現回数を返します。正確なカウントよりも高速に計算できます。
構文:
APPROX_TOP_COUNT(expression, n)
例: ordersテーブルから、注文数が最も多い上位5つの商品とその注文数を計算する
SELECT APPROX_TOP_COUNT(product_id, 5) AS top_products FROM orders;
4.4 APPROX_TOP_SUM
指定された式の値の中で、合計値が大きい上位N個の値とその合計値を返します。正確な合計よりも高速に計算できます。
構文:
APPROX_TOP_SUM(expression, n)
例: salesテーブルから、売上金額が最も大きい上位10の顧客とその売上金額を計算する
SELECT APPROX_TOP_SUM(customer_id, 10) AS top_customers FROM sales;
5. BigQuery公開データで実践!SQL分析例
ここでは、BigQueryの公開データセット「GitHub」を使って、簡単なSQL分析例を紹介します。このデータセットには、GitHub上のリポジトリやユーザーに関する情報が格納されています。
例:特定のプログラミング言語が使われているリポジトリの数を概算で求める
SELECT
APPROX_COUNT_DISTINCT(repo_name) AS approx_repo_count
FROM bigquery-public-data.github_repos.languages
,unnest(language) lang
WHERE lang.name = 'Python'
このクエリを実行するとGitHubでPythonが使われているリポジトリの概算数が表示されます。
このクエリでは近似集計関数 `APPROX_COUNT_DISTINCT` を使用しています。
6. FAQ:BigQueryに関するよくある質問
Q1. BigQueryの無料枠を超えて利用すると、どのくらい費用がかかりますか?
無料枠を超えた場合従量課金制で料金が発生します。
料金は処理したデータ量やストレージ容量などによって異なります。
詳しくはBigQueryの料金ページをご確認ください。
Q2. BigQueryで使えるSQLは他のデータベースと同じですか?
BigQueryは標準SQLをサポートしており、他のデータベースで学んだSQLの知識を活かすことができます。
ただし、BigQuery独自の関数や構文も存在するため、BigQueryのドキュメントで詳細を確認することをおすすめします。
Q3. SQLの学習にはどのような教材がありますか?
SQLの学習にはオンライン学習サイト、書籍、動画教材など、様々な教材があります。
初心者向けの教材から、上級者向けの教材まで、レベルに合わせて選ぶことができます。
Googleが提供するBigQueryのチュートリアルもSQLの学習に役立ちます。
7. まとめ:BigQueryでデータ分析の世界へ飛び込もう!
BigQueryは強力なデータ分析ツールでありながら、初心者でも扱いやすいインターフェースと無料枠を提供しています。
無料公開データセットを活用すれば、費用をかけずにSQLを学び、データ分析のスキルを磨くことができます。
この記事を参考にBigQueryでデータ分析の世界へ飛び込んでみましょう!
BigQuery導入サポート、転職検討中の方はお問い合わせフォームからご相談くださいませ。
誠心誠意精一杯対応いたします。
【参考URL】
GoogleCloudPlatform:https://console.cloud.google.com/welcome/new
BigQuery:https://cloud.google.com/bigquery?hl=ja
BigQueryリリース情報:https://cloud.google.com/bigquery/docs/release-notes
BigQuery料金:https://cloud.google.com/bigquery/pricing
BigQuery料金無料枠:https://cloud.google.com/bigquery/pricing?hl=ja#free-tier
Google Cloud活用事例:https://cloud.google.com/customers/index.html?hl=ja#
Looker Studio:https://cloud.google.com/looker-studio?hl=ja
Looker Studioサンプル:https://cloud.google.com/bigquery/docs/visualize-looker-studio?hl=ja