17회 기출문제
실기 시험일자
2020.06.21
머신러닝 1
데이터셋
데이터 미리보기
| row | Id | LotArea | LotFrontage | YearBuilt | 1stFlrSF | 2ndFlrSF | YearRemodAdd | TotRmsAbvGrd | KitchenAbvGr | BedroomAbvGr | GarageCars | GarageArea | price |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1.0 | 8450.0 | 65.0 | 2003.0 | 856.0 | 854.0 | 2003.0 | 8.0 | 1.0 | 3.0 | 2.0 | 548.0 | 12.24769911637256 |
| 1 | 2.0 | 9600.0 | 80.0 | 1976.0 | 1262.0 | 0.0 | 1976.0 | 6.0 | 1.0 | 3.0 | 2.0 | 460.0 | 12.109016442313738 |
| 2 | 3.0 | 11250.0 | 68.0 | 2001.0 | 920.0 | 866.0 | 2002.0 | 6.0 | 1.0 | 3.0 | 2.0 | 608.0 | 12.317171167298682 |
| 3 | 4.0 | 9550.0 | 60.0 | 1915.0 | 961.0 | 756.0 | 1970.0 | 7.0 | 1.0 | 3.0 | 3.0 | 642.0 | 11.849404844423074 |
| 4 | 5.0 | 14260.0 | 84.0 | 2000.0 | 1145.0 | 1053.0 | 2000.0 | 9.0 | 1.0 | 4.0 | 3.0 | 836.0 | 12.429220196836384 |
데이터 설명
- 문제 주제: 집 가격 예측
- 종속변수:
price(log1p 정규화) - 원본 데이터 출처: House Prices 데이터 일부 전처리
1-1
- 데이터 EDA를 수행하라.
- 분석가 입장에서 의미 있는 탐색 결과를 제시하라.
- 시각화와 통계량을 함께 제시하라.
1-2
Train, Valid, Test set으로 분할하고 시각화를 제시하라.
1-3
2차 교호작용항까지 고려한 회귀분석을 수행하고 변수 선택 과정을 제시하라.
1-4
- 벌점, 앙상블을 포함하여 모형에 적합한 기계학습 모델 3가지를 제시하라.
- 평가지표는 MSE, MAPE, R2를 모두 확인하라.
머신러닝 2
데이터셋
데이터 미리보기
| row | location | date | total_cases | total_deaths | new_tests | population | new_vaccinations |
|---|---|---|---|---|---|---|---|
| 0 | Afghanistan | 2020-02-24 | 5.0 | nan | nan | 39835428.0 | nan |
| 1 | Afghanistan | 2020-02-25 | 5.0 | nan | nan | 39835428.0 | nan |
| 2 | Afghanistan | 2020-02-26 | 5.0 | nan | nan | 39835428.0 | nan |
| 3 | Afghanistan | 2020-02-27 | 5.0 | nan | nan | 39835428.0 | nan |
| 4 | Afghanistan | 2020-02-28 | 5.0 | nan | nan | 39835428.0 | nan |
데이터 설명
location: 지역명date: 일자total_cases: 누적 확진자total_deaths: 누적 사망자new_tests: 검사자population: 인구new_vaccinations: 백신 접종자
2-1
- 마지막 일자를 기준으로 인구 대비 확진자 비율이 높은 상위 5개 국가를 구하라.
- 상위 5개 국가별 누적 확진자, 일일 확진자, 누적 사망자, 일일 사망자 그래프를 범례와 함께 가독성 있게 제시하라.
2-2
- 코로나 위험지수를 직접 정의하라.
- 위험지수의 의미를 설명하라.
- 위험지수가 높은 국가 10개를 선정하여 시각화하라.
2-3
- 한국의 코로나 신규 확진자를 예측하라.
- 선형 시계열모델 1개와 비선형 시계열모델 1개를 각각 사용하라.
- 예시: 선형은 ARMA, 비선형은 ARIMA
통계 1
데이터셋
데이터 미리보기
| row | userid | group | Q1-1 | Q1-2 | Q1-3 | Q1-4 | Q2-1 | Q2-2 | Q2-3 | Q2-4 | Q3-1 | Q3-2 | Q3-3 | Q3-4 | Q4-1 | Q4-2 | Q4-3 | Q4-4 | Q5-1 | Q5-2 | Q5-3 | Q5-4 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | A | 5 | 2 | 1 | 2 | 4 | 5 | 3 | 3 | 4 | 4 | 1 | 1 | 5 | 2 | 5 | 3 | 3 | 4 | 3 | 4 |
| 1 | 1 | A | 2 | 2 | 3 | 3 | 4 | 3 | 1 | 4 | 4 | 2 | 2 | 3 | 4 | 3 | 5 | 3 | 1 | 2 | 1 | 1 |
| 2 | 2 | A | 1 | 3 | 4 | 4 | 2 | 1 | 4 | 4 | 4 | 4 | 4 | 2 | 1 | 3 | 4 | 1 | 3 | 3 | 2 | 5 |
| 3 | 3 | A | 3 | 3 | 4 | 2 | 2 | 4 | 4 | 3 | 2 | 4 | 2 | 3 | 3 | 4 | 2 | 4 | 1 | 1 | 3 | 2 |
| 4 | 4 | A | 3 | 1 | 2 | 3 | 4 | 3 | 4 | 1 | 1 | 3 | 5 | 1 | 3 | 2 | 3 | 1 | 3 | 2 | 5 | 4 |
데이터 설명
- A부터 D까지의 그룹이 동일한 설문 문항에 응답한 데이터다.
- 문항은 5개 영역으로 나뉘며, 각 영역마다 4개 문항이 있다.
- 각 영역의 3번 문항은 1번 문항의 역문항이다.
- 모든 응답은 5점 척도이며, 역문항은
6 - 응답값으로 변환해야 한다.
1-1
역문항을 변환한 후 각 그룹(AD)의 영역(Q1Q5)별 응답 평균, 표준편차, 왜도, 첨도를 구하라. 각 통계량은 4x5 데이터프레임 형태로 제시하라.
1-2
그룹별로 Q1-1 문항의 차이가 존재하는지 분산분석을 시행하라.
1-3
탐색적 요인분석을 수행하고 결과를 시각화하라.
Next Step
문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요
기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.