前言:
寫到這裡的時候我覺得非常期待,前期我們前面花了一些時間介紹 BigQuery,並學會如何和他連線並做簡單的查詢。現在,我們終於可以在 GCP 操作ELT過程,並且打造自己的儀表板!
在這次的數據分析實作一中,整個架構順序如下:
今天要做的是這步:
準備材料:
cloud shell
Data
資料集介紹:
今天使用的是kaggle 上的影音串流平台的資料來源是: Netflix Disney+ Prime Video Hulu Shows Collection,因為目的主要是在雲端上熟悉環境,資料已經先做了以下的梳理:
title: 電影/影集名稱
YEAR: 電影/影集上映年份
AGE: 目標受眾年紀族群
Netflix: 在 Netflix 上可否取得
Hulu: 在 Hulu 上可否取得
Prime_video: 在 Prime_video 上可否取得
Disney: 在 Disney+ 上可否取得
Type: movie or TV show
IMDb_score: IMDb 分數
RT_score: Rotten tomatoes,爛番茄分數。
建置 GCS bucket:
到 cloud storage,點選建立
點選上傳檔案:
建置 Cloud SQL:
首先,打開 cloud shell:
先建置一個在GCP上的 Cloud SQL,在root-password這裡,請輸入你自己設定的密碼。:gcloud sql instances create mysql-instance \
–database-version=MYSQL_5_7 \
–tier=db-g1-small \
–region=us-central1 \
–root-password=\
–availability-type=zonal \
–storage-size=10GB \
–storage-type=HDD
大約等個幾分鐘,可以看到 cloud SQL上出現我們的實例。
gcloud sql connect mysql-instance –user root
建立 Database:
CREATE DATABASE bq_test_db;
SHOW DATABASES;
建立 Table:
CREATE TABLE bq_test_db.tv_shows(
ID integer,
title varchar(255),
YEAR integer,
AGE varchar(255),
Netflix integer,
Hulu integer,
Prime_video integer,
Disney integer,
Type integer,
IMDb_score integer,
IMDb_Total integer,
RT_score integer,
RT_Total integer
);
點選匯入:
select * from bq_test_db.tv_shows LIMIT 10;
Summary:
我們今天學會了在 GCP 上建置 cloud SQL,下一步要把資料匯出成 CSV 到 Cloud storage 存放!