2021년 01월 29일 자로 3번째 GCP Certificate인 Professional Data Engineer 자격증을 취득하게 되었습니다.
본 포스팅에서는 GCP PDE Certificate를 취득하게 된 이유와 과정을 서술합니다.
다른 GCP Certificate인 Professional Cloud Architect, Professional Network Engineer에 대한 포스팅도 본 블로그에서 다루고 있습니다.
GCP 자격증들에 대한 전반적인 정보는 본 포스팅보다 위의 포스팅에서 더 자세하게 다루고 있습니다.
GCP Professional Data Engineer란?
GCP PDE는 Data를 수집하고, 변형하고, 적재하는 모든 행위와 관련된 의사결정을 할 수 있는지 검증하는 자격증입니다.
이렇게 Data를 다룰 줄 안다는 것은 Cloud 환경에서와 같이 Computing resource를 사용해야 하는 자에게 가장 중요한 지식입니다.
우리는 Computing power를 통해 입력과 출력으로 구성된 일련의 과정을 유의미한 행위로 바꾸고 있기 때문입니다.
이 Data가 유익한 결과로 변형되기 위해서는 잘 수집하고, 적재되고, 정리되고, 정돈되어야 합니다. 좋은 Input이 곧 좋은 Output을 산출하는 법이기 때문입니다.
즉 GCP PDE는 Data를 이용한 정보 산출 능력을 채점하는, Cloud를 사용하는 근본적인 목적을 잘 수행할 수 있는지 묻는 시험이라고 할 수 있습니다.
PDE 시험에 대해서 조금 더 구체적으로 말하자면 Data의 사용 목적에 맞는 ETL Process, Data pipeline, Anaysis를 하기 위한 Infrastructure의 구성과 보안, 고가용성 설계 및 모니터링을 다루고 있습니다.
이에 더해 ML과 관련된 지식, Hadoop ecosystem에 대한 이해, Data format에 대한 지식이 필요합니다.
개인적으로 저는 이 시험을 준비하면서 bigQuery, bigtable, GCS 등 GCP product에 대한 이해는 어렵지 않았지만, 하둡 생태계의 몇몇 service를 알고 있어야 하거나(Hive, HDFS, Spark, Pig 등) 특정한 Data format(Parquet, CSV, ORC 등)에 대한 이해를 요했던 점이 장애물로 다가왔습니다.
게다가 Machine learning에 대한 기초적인 지식도 등장했기 때문에 저에게 PDE는 단순히 어떤 GCP Product를 사용해야 하는지 달달 외우는 것을 요구하는 시험이 아니라 Data를 다루는 모든 행위에 대한 개념을 알아야 하는 시험으로 다가왔습니다.
이 점을 깨닫고 나서 자격증을 취득하니 현업에서 GCP를 사용하는데 많은 도움이 되었습니다. 비단 Data analysis 같은 직접적으로 Data를 다뤄야 하는 작업뿐만 아니라 Cloud를 사용하는 다양한 분야에서 쓰임새를 느꼈습니다.
PDE 시험이 Data를 직접 다루는 작업 뿐만 아니라 IT계열의 종사자라면 누구나 알고 있어야 하는 지식을 다룬다는 반증이라고 생각합니다.
GCP PDE에 합격하기 위해서는
이제 GCP PDE 시험에 합격하기 위한 준비과정을 살펴보겠습니다.
GCP PDE를 합격하기 위한 기본적인 베이스는 Official certificate page에서 찾을 수 있습니다.
GCP에서는 모든 자격증 시험에서 실제 출제되는 문제들과 유사한 형식의 Sample question을 제공하고 있습니다.
저는 시험에 응하기 전에 이 Sample question만큼은 완벽히 분석하고 가는 것을 권장합니다.
Sample question의 난이도나 문제 유형, 묻고자 하는 개념이 실제 시험 문제에 고스란히 반영되어 있기 때문입니다.
실제 시험에 나올 수도 있다고 하는데, 저는 한 번도 실제 문제로 출제된 것을 본 적은 없습니다.
전반적으로 PDE의 모든 문제는 Data의 수집, 변형, 적재, 분석, 조율에 대한 의사결정을 묻고 있습니다.
그렇기 때문에
Data collection에 해당하는 Pub/sub, Transfer service, Transfer appliance
Data transform에 해당하는 Dataflow, Dataproc, Dataprep
Data storage에 해당하는 bigQuery, bigtable, GCS
Data analysis에 해당하는 bigQuery
Data ochestration에 해당하는 Composer 등
모든 Data Processing 과정의 Product에 대한 Document를 꼼곰히 읽어야 합니다.
하지만 위에서 잠깐 언급했듯이, 단순 GCP Product만 알고 간다면 시험을 합격할 수 없습니다.
Data를 다루는 대부분의 행위를 묻기 때문에 Hadoop ecosystem, Machine learning, Data format부터 Security, Network 지식 등 다양한 분야의 넓은 부분을 알고 있어야 합니다.
이 같은 지식은 GCP document에서도 다루지 않기 때문에 모르는 단어나 개념이 나올 때마다 구글링해서 익히는 것을 권장합니다.
문제에서 원하는 목적을 가장 적절하게 달성할 수 있는 방법을 찾을 수 있다면 시험을 수월하게 합격할 수 있습니다.
GCP PDE 시험의 합격 컷은 공식적으로 밝히지는 않았지만 전체 문제의 80%입니다.
때문에 총 50문제 중 10문제를 넘겨서 틀리게 되면 Fail 할 수 있습니다.
시험 시간은 2시간을 주는데, 저는 시험 시간이 부족하다고 느낀 적은 없습니다.
제가 PDE에 응했을 때는 문제를 다 풀고, 체크한 문제들을 1차 검토하고, 2차 검토한 뒤 submit 하기까지 1시간 30분 정도를 소요했습니다.
GCP PDE를 취득하고 나서
우연찮게도 저는 PDE 시험을 준비하던 와중에 Data pipeline을 구성해야 하는 작업을 맡게 되었었습니다.
마침 한창 관련 개념을 익히고 있던 중이었던 덕분에, 평소라면 생소했을 뻔했던 Data의 처리 Pipeline architecture를 막힘없이 구성할 수 있었습니다.
만약 Data에 대한 이해와 관련 Product의 쓰임새를 알지 못했더라면 수월하게 구성할 수 없었을 것입니다.
이처럼 PDE 자격증 자체가 아니라 시험을 준비하는 도중에 생긴 지식이 저에게는 가장 큰 도움이 되었습니다.
제가 생각하기에 지금처럼 Data를 직접적으로 다루어야 하는 작업 뿐만 아니라 다른 Cloud 관련 Architecture를 구성해야 할 때에도 도움을 많이 받을 수 있을 것 같습니다.
생각해보면 존재하는 Cloud 환경에서 수행하는 모든 작업들은 Data를 다뤄야 하기 때문입니다.
이 포스팅을 읽는 모든 이들도 PDE 자격증에 대한 정보를 얻고 저와 같은 도움을 받을 수 있기를 바랍니다.
'GCP' 카테고리의 다른 글
AWS와 GCP간 HA (High-Availability) VPN 연결 구성하기 (2) | 2021.03.30 |
---|---|
AWS RDS의 데이터를 GCP bigQuery에서 분석해보자 (Federated query, CDC migration) (17) | 2021.03.13 |
GCP Cloud monitoring으로 편리하게 Network monitoring을 해보자 (0) | 2021.01.23 |
GCP Dataflow SQL로 쉽게 Streaming Data를 처리하는 Data pipeline 구성하기 (0) | 2021.01.09 |
GCP VM instance에서 사용하고 있는 Linux OS image를 Local로 가져오기 (1) | 2020.12.25 |