ADP 30회 실기 문제#
데이터설명
데이터 출처 : 캐글어딘가.. 후처리
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p1.csv
데이터 설명 : 혈압 데이터 DBP
종속변수 : DBP
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p1.csv')
df.head()
Age | Gender | BMI | DBP | FPG | Chol | Tri | HDL | LDL | ALT | CCR | FFPG | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 26 | 1 | 20.1 | 81 | 5.80 | 4.36 | 0.86 | 0.90 | 2.43 | 12.0 | 63.8 | 5.40 |
1 | 40 | 1 | 17.7 | 54 | 4.60 | 3.70 | 1.02 | 1.50 | 2.04 | 9.2 | 70.3 | 4.10 |
2 | 40 | 2 | 19.7 | 53 | 5.30 | 5.87 | 1.29 | 1.75 | 3.37 | 10.1 | 61.1 | 4.85 |
3 | 43 | 1 | 23.1 | 71 | 4.50 | 4.05 | 0.74 | 1.27 | 2.60 | 36.5 | 73.4 | 5.30 |
4 | 36 | 1 | 26.5 | 82 | 5.54 | 6.69 | 3.49 | 0.91 | 3.64 | 69.3 | 67.5 | 5.53 |
1-1
EDA를 시행하라
#
1-2
데이터 전처리가 필요하다면 수행하고 이유를 작성하라
#
1-3
train test set을 DBP컬럼 기준으로 7:3 비율로 나누고 잘 나뉘었는지 통계적으로 나타내라
#
2-1
독립변수의 차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오
#
2-1
작업 후 데이터가 회귀분석의 기본가정 따르는지 설명
#
3-1
회귀분석 알고리즘 3개를 선택하고 선정이유와 장단점 비교
#
3-2
1-3에서 구분한 데이터를 기준으로 3개의 회귀 분석 모델링을 진행하고 평가지표 rmse로 가장 최적화된 알고리즘 선정
#
3-3
3-2에서 가장 성능 좋은 알고리즘을 이용하여 K-Fold 교차검증을 수행하시오
#
데이터 분석
데이터 출처 : https://taas.koroad.or.kr/api/selectOpenApi.do 후처리
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p2_v2.csv
데이터 설명 : 자전거사고 다발지역 개별사고 정보
대상사고 : 해당 1년간 발생한 가해 또는 피해차종이 자전거인 교통사고
다발지역 선정조건 : 반경 300m 내 대상사고 4건이상 발생지역
종속 변수 : 피해자신체상해정도
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p2_v2.csv')
df.head()
사고년도 | 가해자성별 | 가해자연령 | 가해차종 | 가해자신체상해정도 | 피해자성별 | 피해자연령 | 피해차종 | 피해자신체상해정도 | 사고유형 | 가해자법규위반 | 기상상태 | 시각 | 사건번호 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 2015 | 남 | 46세 | 승합차 | 상해없음 | 여 | 64세 | 자전거 | 경상 | 차대차 - 기타 | 안전운전불이행 | 맑음 | 2015-07-03_10시 | ID_796 |
1 | 2019 | 남 | 53세 | 승용차 | 상해없음 | 여 | 57세 | 자전거 | 경상 | 차대차 - 후진중충돌 | 안전운전불이행 | 맑음 | 2019-10-12_10시 | ID_6697 |
2 | 2015 | 남 | 39세 | 승용차 | 상해없음 | 남 | 63세 | 자전거 | 중상 | 차대차 - 기타 | 기타 | 맑음 | 2015-03-23_20시 | ID_919 |
3 | 2016 | 남 | 12세 | 자전거 | 상해없음 | 남 | 52세 | 보행자 | 경상 | 차대사람 - 길가장자리구역통행중 | 안전운전불이행 | 맑음 | 2016-04-10_15시 | ID_2512 |
4 | 2015 | 남 | 54세 | 승용차 | 상해없음 | 남 | 63세 | 자전거 | 중상 | 차대차 - 기타 | 안전운전불이행 | 맑음 | 2015-08-04_6시 | ID_75 |
4-1
발생시각을 통해 평일인지 주말인지를 구분하는 ‘주말여부’ 범주형 변수 추가하고 데이터 분포를 확인하라. (월 ~ 금은 평일, 토요일과 일요일을 주말)
#
4-2
‘피해자신체상해정도’에 따라 각 독립변수들이 유의한지 통계적 검정하라
#
4-3
4-2 에서 유의한 변수들만을 가지고 ‘피해자신체상해정도’를 기준으로 SMOTE 오버샘플링을 수행하고 샘플링 데이터와 기존데이터를 합친 전체 데이터에 대해 범주형변수는 변수별 빈도를 나타내고 연속형이면 평균을 나타내시오
#
4-4
4-3 데이터를 가지고 ‘피해자신체상해정도’ 을 종속변수로 하여 로지스틱회귀분석, XGB 분류 분류 모델을 만들고 성능 비교를 하고 영향력 있는 변수를 확인하라
#
5
3개의 공장에서 생산한 제품을 3지역으로 가능한 조건에 맞게 최대로 배송한다.
각 공장과 각 지역 사이의 1개 제품 배송 비용이 아래와 같을 때, 최소 배송 비용은 얼마인가?
#
6
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p6.csv
데이터 설명 : 3개 연령층 (청년 장년 노년)의 A 헤드셋의 선호도 (1,2,3/ 범주형) 설문조사
6-1
연령대별로 헤드셋 선호도에 차이가 있는지를 검정하기 위한 귀무가설과 연구가설을 설정해라
#
6-2
유의수준 하에서 통계 검정해라
#
7-1
아이를 6명 가진 가정이 5 가족이고, 아들/딸을 출생할 확률은 0.5이다. 딸이 4명 이상인 가구가 3 가족 이상일 확률을 구하라
#
7-2
5가족 중 몇 가족이 4명 이상 딸을 가질 것으로 기대할 수 있는가?
#
created by datamanim web-link