World of GCP by Ketan Patel: Ingesting Data Into The Cloud

Use a bash script to download selected data from a large public data set available on the internet. This data, made available on the US Bureau of Transport Statistics (BTS) website, provides historic information about internal flights in the United States.

The techniques used to ingest this data from the website into the cloud can be applied to other data sets that provide comprehensive real world data but must be parsed and cleaned before to be usefull.

Objectives

Retrieve initial data from the BTS website
Store the data in Cloud Storage
Load data into Google BigQuery

$ history

1 gcloud auth list

2 gcloud config list project

3 git clone https://github.com/GoogleCloudPlatform/data-science-on-gcp/

4 cd data-science-on-gcp/

5 ls -l

6 mkdir data

7 cd data

8 curl https://www.bts.dot.gov/sites/bts.dot.gov/files/docs/legacy/additional-attachment-files/ONTIME.TD.201501.REL02.04APR2015.zip --output data.zip

9 ls -l

10 pwd

11 unzip data.zip

12 ls -l

13 head ontime.td.201501.asc

14 cat ../02_ingest/ingest_from_crsbucket.sh

15 ls -l ../

16 ls -l ../02_ingest/

17 export PROJECT_ID=$(gcloud info --format='value(config.project)')

18 gsutil mb -l us-central1 gs://${PROJECT_ID}-ml

19 bash ../02_ingest/ingest_from_crsbucket.sh ${PROJECT_ID}-ml

20 pwd

21 cat ../02_ingest/bqload.sh

22 bash ../02_ingest/bqload.sh ${PROJECT_ID}-ml 2015

23 pwd

24 ls -l

Clone the Data Science on Google Cloud repository

student_04_5c9933322c08@cloudshell:~ (qwiklabs-gcp-03-7459aec741fa)$ git clone \
https://github.com/GoogleCloudPlatform/data-science-on-gcp/

Cloning into 'data-science-on-gcp'...

remote: Enumerating objects: 3462, done.

remote: Counting objects: 100% (362/362), done.

remote: Compressing objects: 100% (128/128), done.

remote: Total 3462 (delta 251), reused 240 (delta 234), pack-reused 3100

Receiving objects: 100% (3462/3462), 6.68 MiB | 19.71 MiB/s, done.

Resolving deltas: 100% (1857/1857), done.

student_04_5c9933322c08@cloudshell:~ (qwiklabs-gcp-03-7459aec741fa)$ cd data-science-on-gcp/

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp (qwiklabs-gcp-03-7459aec741fa)$ ls -l

total 148

drwxr-xr-x 3 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 02_ingest

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 03_sqlstudio

drwxr-xr-x 6 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 04_streaming

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 05_bqnotebook

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 06_dataproc

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 07_sparkml

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 08_bqml

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 09_vertexai

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 10_mlops

drwxr-xr-x 3 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 11_realtime

drwxr-xr-x 2 student_04_5c9933322c08 student_04_5c9933322c08 4096 Jul 29 19:31 12_fulldataset

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 545 Jul 29 19:31 COPYRIGHT

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 81972 Jul 29 19:31 cover_edition2.jpg

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 11357 Jul 29 19:31 LICENSE

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 2107 Jul 29 19:31 README.md

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp (qwiklabs-gcp-03-7459aec741fa)$ mkdir data

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp (qwiklabs-gcp-03-7459aec741fa)$ cd data

Task 2. Retrieve data from a website

Fetch a sample data file using curl

You will use curl to fetch the monthly CSV files that contain the raw data that will be used to build your complete data set. The data set is called the On-Time performance data. You can download a pre-configured data file for each month in any given year from the Bureau of Transportation Statistic.

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ curl https://www.bts.dot.gov/sites/bts.dot.gov/files/docs/legacy/additional-attachment-files/ONTIME.TD.201501.REL02.04APR2015.zip --output data.zip

% Total % Received % Xferd Average Speed Time Time Time Current

Dload Upload Total Spent Left Speed

100 14.5M 100 14.5M 0 0 23.1M 0 --:--:-- --:--:-- --:--:-- 23.1M

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ ls -l

total 14940

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 15297207 Jul 29 19:32 data.zip

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ pwd

/home/student_04_5c9933322c08/data-science-on-gcp/data

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ unzip data.zip

Archive: data.zip

inflating: ontime.td.201501.asc

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ ls -l

total 93260

-rw-r--r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 15297207 Jul 29 19:32 data.zip

-rw-rw-r-- 1 student_04_5c9933322c08 student_04_5c9933322c08 80196338 Apr 3 2015 ontime.td.201501.asc

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ head ontime.td.201501.asc

AA|1|JFK|LAX|20150101|4|900|900|855|1230|1230|1237|0|0|390|402|-5|7|12|912|1230|N787AA|17|7|378||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150102|5|900|900|850|1230|1230|1211|0|0|390|381|-10|-19|-9|905|1202|N795AA|15|9|357||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150103|6|900|900|853|1230|1230|1151|0|0|390|358|-7|-39|-32|908|1138|N788AA|15|13|330||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150104|7|900|900|853|1230|1230|1218|0|0|390|385|-7|-12|-5|907|1159|N791AA|14|19|352||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150105|1|900|900|853|1230|1230|1222|0|0|390|389|-7|-8|-1|920|1158|N783AA|27|24|338||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150106|2|900|900|856|1235|1235|1300|0|0|395|424|-4|25|29|1021|1256|N799AA|85|4|335||0|0|25|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150107|3|900|900|859|1235|1235|1221|0|0|395|382|-1|-14|-13|928|1209|N784AA|29|12|341||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150108|4|900|900|856|1235|1235|1158|0|0|395|362|-4|-37|-33|922|1155|N787AA|26|3|333||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150109|5|900|900|901|1235|1235|1241|0|0|395|400|1|6|5|944|1237|N795AA|43|4|353||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

AA|1|JFK|LAX|20150110|6|900|900|903|1235|1235|1235|0|0|395|392|3|0|-3|940|1225|N790AA|37|10|345||0|0|0|0|0|0|0|0|0||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|||0|0|0|0|

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$

Download custom data from a storage bucket

Snapshots of custom BTS data have been organized and saved in a public storage bucket. Download it from the data-science-on-gcp public storage bucket. A script is provided in the repo to help achieve this.

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ cat ../02_ingest/ingest_from_crsbucket.sh

#!/bin/bash

if [ "$#" -ne 1 ]; then

echo "Usage: ./ingest_from_crsbucket.sh destination-bucket-name"

exit

BUCKET=$1

FROM=gs://data-science-on-gcp/edition2/flights/raw

TO=gs://$BUCKET/flights/raw

CMD="gsutil -m cp "

for MONTH in `seq -w 1 12`; do

CMD="$CMD ${FROM}/2015${MONTH}.csv"

done

CMD="$CMD ${FROM}/201601.csv $TO"

echo $CMD

$CMD

student_04_5c9933322c08@cloudshell:~/data-science-on-gcp/data (qwiklabs-gcp-03-7459aec741fa)$ ls -l ../

total 152