17회 기출문제

실기 시험일자

2020.06.21

머신러닝 1

데이터셋
데이터 미리보기
rowIdLotAreaLotFrontageYearBuilt1stFlrSF2ndFlrSFYearRemodAddTotRmsAbvGrdKitchenAbvGrBedroomAbvGrGarageCarsGarageAreaprice
01.08450.065.02003.0856.0854.02003.08.01.03.02.0548.012.24769911637256
12.09600.080.01976.01262.00.01976.06.01.03.02.0460.012.109016442313738
23.011250.068.02001.0920.0866.02002.06.01.03.02.0608.012.317171167298682
34.09550.060.01915.0961.0756.01970.07.01.03.03.0642.011.849404844423074
45.014260.084.02000.01145.01053.02000.09.01.04.03.0836.012.429220196836384
데이터 설명
  • 문제 주제: 집 가격 예측
  • 종속변수: price (log1p 정규화)
  • 원본 데이터 출처: House Prices 데이터 일부 전처리
1-1
  • 데이터 EDA를 수행하라.
  • 분석가 입장에서 의미 있는 탐색 결과를 제시하라.
  • 시각화와 통계량을 함께 제시하라.
1-2

Train, Valid, Test set으로 분할하고 시각화를 제시하라.

1-3

2차 교호작용항까지 고려한 회귀분석을 수행하고 변수 선택 과정을 제시하라.

1-4
  • 벌점, 앙상블을 포함하여 모형에 적합한 기계학습 모델 3가지를 제시하라.
  • 평가지표는 MSE, MAPE, R2를 모두 확인하라.

머신러닝 2

데이터셋
데이터 미리보기
rowlocationdatetotal_casestotal_deathsnew_testspopulationnew_vaccinations
0Afghanistan2020-02-245.0nannan39835428.0nan
1Afghanistan2020-02-255.0nannan39835428.0nan
2Afghanistan2020-02-265.0nannan39835428.0nan
3Afghanistan2020-02-275.0nannan39835428.0nan
4Afghanistan2020-02-285.0nannan39835428.0nan
데이터 설명
  • location: 지역명
  • date: 일자
  • total_cases: 누적 확진자
  • total_deaths: 누적 사망자
  • new_tests: 검사자
  • population: 인구
  • new_vaccinations: 백신 접종자
2-1
  • 마지막 일자를 기준으로 인구 대비 확진자 비율이 높은 상위 5개 국가를 구하라.
  • 상위 5개 국가별 누적 확진자, 일일 확진자, 누적 사망자, 일일 사망자 그래프를 범례와 함께 가독성 있게 제시하라.
2-2
  • 코로나 위험지수를 직접 정의하라.
  • 위험지수의 의미를 설명하라.
  • 위험지수가 높은 국가 10개를 선정하여 시각화하라.
2-3
  • 한국의 코로나 신규 확진자를 예측하라.
  • 선형 시계열모델 1개와 비선형 시계열모델 1개를 각각 사용하라.
  • 예시: 선형은 ARMA, 비선형은 ARIMA

통계 1

데이터셋
데이터 미리보기
rowuseridgroupQ1-1Q1-2Q1-3Q1-4Q2-1Q2-2Q2-3Q2-4Q3-1Q3-2Q3-3Q3-4Q4-1Q4-2Q4-3Q4-4Q5-1Q5-2Q5-3Q5-4
00A52124533441152533434
11A22334314422343531211
22A13442144444213413325
33A33422443242334241132
44A31234341135132313254
데이터 설명
  • A부터 D까지의 그룹이 동일한 설문 문항에 응답한 데이터다.
  • 문항은 5개 영역으로 나뉘며, 각 영역마다 4개 문항이 있다.
  • 각 영역의 3번 문항은 1번 문항의 역문항이다.
  • 모든 응답은 5점 척도이며, 역문항은 6 - 응답값으로 변환해야 한다.
1-1

역문항을 변환한 후 각 그룹(AD)의 영역(Q1Q5)별 응답 평균, 표준편차, 왜도, 첨도를 구하라. 각 통계량은 4x5 데이터프레임 형태로 제시하라.

1-2

그룹별로 Q1-1 문항의 차이가 존재하는지 분산분석을 시행하라.

1-3

탐색적 요인분석을 수행하고 결과를 시각화하라.

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.