ITエンジニアとして経験・学習したこと

ITエンジニアとして経験したり学習したことを忘れないよう、書いていきたいと思います。少しでも皆様のお役に立てれば幸いです。

GCS(Google Cloud Storage)とBigQueryで連動するプログラムを作成した(1)

GCS(Google Cloud Storage)とBigQueryで連動するプログラムを作成したので共有する。GCSは、ファイルデータ格納用ストレージのことをいい、BigQueryはSQL文によりデータ操作が行えるデータベース機能をもつビッグデータ解析プラットフォームのことをいう。

今回は、Windows 10が入っているローカル環境にて、Python 2.7の場合とJava 1.8の場合それぞれで作成した。作成した機能については以下の通りとなる。

 

1) BigQueryに、取り込むCSVファイルのデータを格納するテーブル(sales)を作成

f:id:purin_it:gcs_bigquery_result_1

 

2) GCS上に、取り込むCSVファイル(insert_bigquery_sales.csv)を配置

f:id:purin_it:gcs_bigquery_result_2_1

 

    なお、配置したファイルの中身は以下の通り

f:id:purin_it:gcs_bigquery_result_2_2

 

3) GCS上のファイルを、BigQuery内のsalesテーブルに取り込むプログラムを実行

(下記はPython 2.7での実行例)

f:id:purin_it:gcs_bigquery_result_3

 

4) BigQuery内のsalesテーブルに、CSVファイルの全データが入っていることを確認

f:id:purin_it:gcs_bigquery_result_4

 

5) BigQuery内のsalesテーブルの全データをjsonファイル(sales.json)に出力するプログラムを実行

(下記はPython 2.7での実行例)

f:id:purin_it:gcs_bigquery_result_5

 

6) jsonファイル(sales.json)に、全データがJSON形式で出力されていることを確認

f:id:purin_it:gcs_bigquery_result_6

 

なお、上記処理が行えるようになるまでの過程は、下記ブログにて記載している。

www.purin-it.work

 

www.purin-it.work

 

www.purin-it.work