前回「Googleの「BigQuary」を試して見る」と言う形で記事でBigQueryについて紹介しました。その時は「どんなものなの?」と言う感じでしたが、実際に使ってみて超便利!だったので、今回は具体的にYouTubeのデータをBigQyeryで取得してみました。
過去記事
- BigQueryとYouTubeの接続設定方法が分かる
- BigQueryとYouTubeを接続してデータを見ることができる
Excelで処理が重い場合はBigQuaryで対応する
個人アカウントのYouTubeだと、BigQueryの恩恵は少ないかもしれませんが、YouTubeCMSでオーナーアカウントを管理している方(企業)はすごく便利。オーナーアカウントから各種データをCSVなどでダウンロードしてデータ確認ができますが、アカウント数が多くなるとCSVも容量が大きくなり、Excelでも読み込みデータ量の上限で処理が出来なくなってきます。幾つか、RPAや外部のデータ処理サービスも確認してみましたが、ファイル読み上限や、読み込めても後続処理が難しかったりでお手上げになります。
そうすると、BigQueryで対応するのが一番ベターな解決方法です。読み込みはもちろん全く問題無く、処理も1兆行(レコード)の処理が約10秒の処理力。データもクエリ処理で生データを全て取り込む必要もありません。
また、YouTubeに限らず、ローカルデータをアップロードして処理もできるので、RPAとスプレッドシートも利用すれば多くの業務の自動処理も可能です。AWSなど外部サービスとの連携もできますので、脱エクセルの入り口に来ているのでは!?と感じます。
BIgQueryの設定手順
前回のBigQueryの記事でアカウント作成までは紹介したので、その続きです。
▼マークをクリックすると新しいプロジェクトの作成が出来るので、画面の説明通りに設定します。
Googleアカウントは個人アカウントなので、プロジェクトとして作れる数が最大25個まで。いらないプロジェクトは削除して調整出来るのですが、削除方法が少し分かりにくかったので以下を参考に。
新しいプロジェクトが出来たら、上部メニューの部分が作ったプロジェクト名になっている事を確認し、三点アイコンから「データセットを作成」を選択。
データセットID(好きな名称)とローケーションを選択して「データセットを作成」ボタンをクリック
作ったデータセットの三点アイコンから「テーブルを作成」を選択。
項目に合わせてテーブル設定をします。項目は好きな名所うを入れたりする形ですが、2か所は以下の設定をお薦めします。理由は負荷対応や取り込むYouTubeの内容で処理量が大きくなると無料枠を超えてしまう可能性があるためです。(キチンとした説明もあるので、Googleで検索してください)
- パーティショニング ⇒「取込時間により分割」
- パーティショニングタイプ ⇒「データのクエリでWHERE句を必須にする」
設定例は以下↓のアコーディオンを開いて見れます。
テーブル設定サンプル
左メニューから「データ転送」を選択します。エラーの文言が表示されますが、気にせず「転送を作成」をクリック
続けて、ポップアップでAPIを有効にします。
項目に合わせてテーブル設定をします。「データソースの詳細」項目で、Table suffixが少し分かりにくいです。?アイコンでも説明がありますが、テーブルを作成するときに自分で決めた名称の「_(アンダーバー)」以降をいれます。
設定例は以下↓のアコーディオンを開いて見れます。Table suffixについても図解してます。
データ転送設定サンプル
データ転送の設定が出来た後は、Googleアカウントの設定確認(GASなどの初期起動時の確認と同じ)のポップアップが続きますので承認許可していきます。
転送設定まで出来れば完了ですが、直後はエラーなど表示されると思います。2~3時間程度待つ気持ちで。
取得されたデータ例は以下↓のアコーディオンを開いて見れます。
取得データサンプル
BigQueryのプロジェクト削除方法
プロジェクトの作成数が決まっているので、テストなどで作ったプロジェクトは削除したいのですが、どこから削除できるのか手間取ったので以下を参考に。
新しいプロジェクト画面の「フォルダアイコン」をクリック。このアイコンからのみで言葉(日本語・英語)での表記が見当たらなく、更に隣に「新しいプロジェクト」との記載があるので分かりにくい感じ。
作られたプロジェクトの一覧が出るので、三点アイコンを選んで削除(シャットダウン)します。
設定につまずいても大丈夫
少し文字ばかりで抵抗あるかもしれませんが、BigQueryの設定ガイドは分かり易くなっているので、順番に読み進めるだけでも十分上記の内容はできます。BigQueryの説明からガイドがあるので、初めから順番に読み進んでもらうのが良いですが、この記事で紹介した部分は以下のガイドページから読み進める形です。
https://cloud.google.com/bigquery/docs/datasets
初めから読んでみたい方は以下からどうぞ。
https://cloud.google.com/bigquery/docs/introduction
また、ガイドを見ながらで設定が上手くいかなくても、画面上にチュートリアルが表示されるので大丈夫。
Googleのチュートリアルも分かり易いです。
BigQueryの設定はコンソールから、データ表示はスプレッドシートで。
データベースを使用するには、インフラやプログラムの知識が必要なので、ノンプログラマーでは難しい領域でしたが、BigQueryはコンソールで設定が完結できて、クリックでスプレッドシートに出力できるので超簡単です。
クエリを実行して必要なデータに絞り、後続処理を行える選択肢も多くあります。
最後に
BigQueryは思った以上に使いやすいので、ノンプログラマーには必須なサービスになりそうな気がします。個人レベルではほとんどが無料で使えると思ってます。使い慣れれば対企業案件で膨大なデータを扱う事があっても操作は同じなのでノンプログラマーでも対応できる範囲が広がるのではと思います。