30회 기출문제
2023.09.02
머신러닝 1
| row | Age | Gender | BMI | DBP | FPG | Chol | Tri | HDL | LDL | ALT | CCR | FFPG |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 26.0 | 1.0 | 20.1 | 81.0 | 5.8 | 4.36 | 0.86 | 0.9 | 2.43 | 12.0 | 63.8 | 5.4 |
| 1 | 40.0 | 1.0 | 17.7 | 54.0 | 4.6 | 3.7 | 1.02 | 1.5 | 2.04 | 9.2 | 70.3 | 4.1 |
| 2 | 40.0 | 2.0 | 19.7 | 53.0 | 5.3 | 5.87 | 1.29 | 1.75 | 3.37 | 10.1 | 61.1 | 4.85 |
| 3 | 43.0 | 1.0 | 23.1 | 71.0 | 4.5 | 4.05 | 0.74 | 1.27 | 2.6 | 36.5 | 73.4 | 5.3 |
| 4 | 36.0 | 1.0 | 26.5 | 82.0 | 5.54 | 6.69 | 3.49 | 0.91 | 3.64 | 69.3 | 67.5 | 5.53 |
EDA를 시행하라
데이터 전처리가 필요하다면 수행하고 이유를 작성하라
train test set을 DBP컬럼 기준으로 7:3 비율로 나누고 잘 나뉘었는지 통계적으로 나타내라
독립변수의 차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오
작업 후 데이터가 회귀분석의 기본가정 따르는지 설명
회귀분석 알고리즘 3개를 선택하고 선정이유와 장단점 비교
1-3에서 구분한 데이터를 기준으로 3개의 회귀 분석 모델링을 진행하고 평가지표 rmse로 가장 최적화된 알고리즘 선정
1-7에서 가장 성능 좋은 알고리즘을 이용하여 K-Fold 교차검증을 수행하시오
머신러닝 2
| row | 사고년도 | 가해자성별 | 가해자연령 | 가해차종 | 가해자신체상해정도 | 피해자성별 | 피해자연령 | 피해차종 | 피해자신체상해정도 | 사고유형 | 가해자법규위반 | 기상상태 | 시각 | 사건번호 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 2015 | 남 | 46세 | 승합차 | 상해없음 | 여 | 64세 | 자전거 | 경상 | 차대차 - 기타 | 안전운전불이행 | 맑음 | 2015-07-03_10시 | ID_796 |
| 1 | 2019 | 남 | 53세 | 승용차 | 상해없음 | 여 | 57세 | 자전거 | 경상 | 차대차 - 후진중충돌 | 안전운전불이행 | 맑음 | 2019-10-12_10시 | ID_6697 |
| 2 | 2015 | 남 | 39세 | 승용차 | 상해없음 | 남 | 63세 | 자전거 | 중상 | 차대차 - 기타 | 기타 | 맑음 | 2015-03-23_20시 | ID_919 |
| 3 | 2016 | 남 | 12세 | 자전거 | 상해없음 | 남 | 52세 | 보행자 | 경상 | 차대사람 - 길가장자리구역통행중 | 안전운전불이행 | 맑음 | 2016-04-10_15시 | ID_2512 |
| 4 | 2015 | 남 | 54세 | 승용차 | 상해없음 | 남 | 63세 | 자전거 | 중상 | 차대차 - 기타 | 안전운전불이행 | 맑음 | 2015-08-04_6시 | ID_75 |
발생시각을 통해 평일인지 주말인지를 구분하는 ‘주말여부’ 범주형 변수 추가하고 데이터 분포를 확인하라. (월 ~ 금은 평일, 토요일과 일요일을 주말)
‘피해자신체상해정도’에 따라 각 독립변수들이 유의한지 통계적 검정하라
4-2 에서 유의한 변수들만을 가지고 ‘피해자신체상해정도’를 기준으로 SMOTE 오버샘플링을 수행하고 샘플링 데이터와 기존데이터를 합친 전체 데이터에 대해 범주형변수는 변수별 빈도를 나타내고 연속형이면 평균을 나타내시오
4-3 데이터를 가지고 ‘피해자신체상해정도’ 을 종속변수로 하여 로지스틱회귀분석, XGB 분류 분류 모델을 만들고 성능 비교를 하고 영향력 있는 변수를 확인하라
통계 1
3개의 공장에서 생산한 제품을 3지역으로 가능한 조건에 맞게 최대로 배송한다. 각 공장과 각 지역 사이의 1개 제품 배송 비용이 아래와 같을 때, 최소 배송 비용은 얼마인가?
통계 2
| row | 나이 | 선호도 |
|---|---|---|
| 0 | 청년 | 2 |
| 1 | 장년 | 2 |
| 2 | 청년 | 2 |
| 3 | 청년 | 1 |
| 4 | 장년 | 1 |
데이터 링크 : 데이터 설명 : 3개 연령층 (청년 장년 노년)의 A 헤드셋의 선호도 (1,2,3/ 범주형) 설문조사 연령대별로 헤드셋 선호도에 차이가 있는지를 검정하기 위한 귀무가설과 연구가설을 설정해라
데이터 링크 : 데이터 설명 : 3개 연령층 (청년 장년 노년)의 A 헤드셋의 선호도 (1,2,3/ 범주형) 설문조사 유의수준 하에서 통계 검정해라
통계 3
아이를 6명 가진 가정이 5 가족이고, 아들/딸을 출생할 확률은 0.5이다. 딸이 4명 이상인 가구가 3 가족 이상일 확률을 구하라
5가족 중 몇 가족이 4명 이상 딸을 가질 것으로 기대할 수 있는가?
문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요
기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.