2020년 제 17회 ADP 실기 데이터분석전문가 시험 후기
한국데이터산업진흥원에서 주최하는 제17회 ADP 실기 시험을 봤다.
ADsP을 먼저 합격하고 ADP 필기시험을 합격해야 자격이 주어진다.
# 시험 난이도
이번 17회 문제를 복기 정리해보자면 13:00~ 17:00까지 총 4시간 동안
데이터전처리,기계분석 - 2문제 (20점+30점) / 통계분석 - 1문제 (50점) 총 3문제가 출제되었다.
전체적인 난이도는 평이했고 약간 쉬웠다.
저번 ADP 실기 시험 문제처럼 마치 사설 모의고사 같은 조잡한 문제는 없었다.
데이터전처리,기계분석 문제는 <핸즈온 머신러닝>에 나오는 기본 코드들로 충분히 대처 가능한 정도였다.
통계분석 문제는 그에 비해 기존의 전처리 코드나 머신러닝 코드랑은 큰 상관없는
임기응변이 필요한 말 그대로의 "데이터 처리능력"이 관건이었다.
책에서 배운 코드만으로는 대응하기 어렵고 복잡한 쿼리나 데이터 전처리를 해보지 않았다면 당황해서 시간 내 완료가 힘들 것 같다.
# 문제 복기
1. 데이터전처리,기계분석(1) (20점)
데이터- housing.csv
부동산 데이터로 column으로는 해당 부동산의 "price",
층 수, 방 개수, 건축 연도 등의 수치형 데이터와 "리모델링 여부"의 텍스트 변수로 구성되어있다.
지금까지의 실기시험과 마찬가지로 데이터 크기는 작아서 학습 속도나 전처리 속도는 크게 중요하지 않았다.
( 핸즈온 머신러닝의 house price 데이터와 유사 : 기본적으로 ADP는 <핸즈온 머신러닝> 1 회독이 필수 인듯하다)
(1): 해당 데이터에서 EDA와 기본 전처리를 진행하라. (5점)
(2): 데이터를 train/val/test로 나누고 시각화나 통계량을 보여라.(5점)
(3): 비선형 관계와 교차 특성(interaction)을 반영한 회귀식을 보여라 (5점)
(4): 페널티 모델, 앙상블 모델, 그리고 본인이 적합하다고 생각하는 모델 총 3가지 모델에 대해서
RMSE 등의 Metric으로 모델 성능 향상을 보여라 (5점)
2. 데이터전처리,기계분석(2) (30점)
데이터 - corona.csv
세계 각국의 코로나 국가 이름, 누적 검사자, 누적 확진자, 누적 사망자, 누적 완치자 , 인구수, 날짜를 포함한 시계열 데이터였다.
시국이나 최근 데이터 분야의 이슈를 반영한 흥미로운 데이터였다.
(1): 인구 대비 사망자 수가 가장 큰 5개의 나라의 일일 사망자, 일일 확진자를 시계열 그래프로 각각 표현하라.(15점)
* 그래프의 선, 범례: 평가요소
(2): 각 변수를 활용해서 코로나 위험 지수를 정의하고 만들고 해당 지수 상위 5개 나라의 지수 점수를
bar chart로 그려라(15점)
* 자신만의 코로나 위험 지수를 정의하고 그렇게 정의한 이유를 논리적으로 설명
3. 통계분석 (50점)
데이터 - survey.csv
설문 응답 데이터이다.
응답자의 key인 id, group, 1-1문항부터 6-2문항까지 총 72문항에 대한 만족도 응답(1점~5점)으로 74개의 열로 이루어져 있다.
이 역시 흥미로운 데이터였다. 실제 데이터 분석 직무에서 많이 쓰이는 설문 데이터였으며
굉장히 다양하고 복잡한 전처리를 요구하는 "잘 설계"되고 "잘 만든" 문제였다. (!= 내가 "잘 풀"었다.)
* 문제를 풀기 전에 "역코딩"으로 실시해야 한다. 해당 문제에서 설명하는 "역코딩"이란 해당 설문의
특정 문항이(ex: 1-15 문항) 실제 물어보고자 하는 것을 반대로 물어봤다는 것이다. (문제 응답 성실성 체크를 위해)
(ex: 전반적으로 삶의 만족도를 물어보다가 15문항에서는 '당신의 삶에 얼마나 불만족하고 있습니까?"를 묻는 식)
(1): 각 설문 영역별 만족도를 "Group"별로 평균, 표준편차, 왜도 , 첨도를 구하라 (10점)
(2): 각 영역별 만족도를 비교하여 그룹별 만족도를 검증하라 (10점)
(3): 각 설문 별 , 요인 분석 (explict factor analysis)을 진행하라.
* 요인의 개수는 4개. 각 결과치는 소수점 2번째 자리에서 반올림하라.
(4): Confidence 지수를 측정하여 각 설문 영역 별로 출력하라. (15점)
* 해당 지수의 공식이 주어진다. 해당 지수는 파생 변수이다.
# 시험에 대한 평가
저번 실기시험은 굉장히 사설 모의고사스러운 문제 난이도와 상관없이 데이터 분석 능력을 평가하기에
부적절한 문제 설계와 불친절하고 다양한 해석이 가능한 문제 지침 때문에 데이터 진흥원에 실망을 했었다.
그에 비해, 이번 실기 시험은 굉장히 다양하고 재밌는 데이터셋을(etc 코로나) 바탕으로 적정 난이도의
여러 가지를 확인해 볼 수 있는 좋은 문제를 출제했다.
# 차후 업로드
ADP 실기 전 공부하거나 준비해놓으면 좋은 개념, 코드 목록