ADP 28회 실기 문제#
1번
데이터 출처 : https://www.kaggle.com/datasets/dipam7/student-grade-prediction?resource=download 후처리
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p1.csv
데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences)
sex : 성별 (F : 여성 / M :남성)
age : 나이
pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거)
medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년), 2 - 5~9학년, 3 - 중등 교육 또는 4 - 고등 교육)
fedu : 아버지 교육(0 - 없음, 1 - 초등 교육(4학년), 2 - 5 - 9학년, 3 - 중등 교육 또는 4 - 고등 교육)
guardian : 학생의 보호자
traveltime : 집에서 학교까지 이동 시간(1 - <15분, 2 - 15 - 30분, 3 - 30분 - 1시간, 또는 4 - >1시간)
studytime : 주간 학습 시간(1 - <2시간, 2 - 2 - 5시간, 3 - 5 - 10시간 또는 4 - >10시간)
failures : 과거 클래스 실패 수(n if 1<=n<3, 그렇지 않으면 4)
freetime : 방과 후 자유 시간(숫자: 1 - 매우 낮음에서 5 - 매우 높음)
famrel : 가족 관계의 질(숫자: 1 - 매우 나쁨에서 5 - 훌륭함)
absences : 학교 결석 횟수등급 (0~5, 높은 숫자일수록 많은 결석 횟수)
Show code cell source
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p1.csv")
df.head()
sex | age | pstatus | medu | fedu | guardian | traveltime | studytime | failures | freetime | famrel | absences | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | F | 18 | A | 4 | 4 | mother | 2 | 2 | 0 | 3 | 4 | 2 |
1 | F | 17 | T | 1 | 1 | father | 1 | 2 | 0 | 3 | 5 | 1 |
2 | F | 15 | T | 1 | 1 | mother | 1 | 2 | 3 | 3 | 4 | 3 |
3 | F | 15 | T | 4 | 2 | mother | 1 | 3 | 0 | 2 | 3 | 0 |
4 | F | 16 | T | 3 | 3 | father | 1 | 2 | 0 | 3 | 4 | 1 |
1-1
EDA를 진행하고 (+시각화) , 차원축소의 필요성이 있는지 확인 (5점)
Show code cell source
###
1-2
데이터 품질 개선을 위한 방법이 있는지 찾고 데이터셋을 재생성하라 (5점)
Show code cell source
###
1-3
1.2에서 제시한 방법이 데이터 과적합이 된다는 가정하에 어떻게 해결할 수 있을지 2가지 개선안 제시, 각방법들의 장단점 기술 (10점)
Show code cell source
###
2-1
1-2 데이터셋을 기준으로 random forest, neural network , lightgbm 3가지 방식으로 학교 결석 횟수등급을 예측하는 모델을 만들어라, f1 score로 모델을 평가하라 (5점)
Show code cell source
###
2-2
hard voting, soft voting에 대한 장단점을 설명하고 2-1의 3가지 모델로 구현하라. 두 방식의 f1-score를 비교하라 (10점)
Show code cell source
###
2-3
총 5개 모델(RF, NN, LGBM, 하드보팅, 소프트보팅) 중 실시간 온라인 시스템에 가장 적합한 모델과 선정이유를 객관적으로 제시하라 (5점)
###
3-1
적정 모델과 선정 및 모델링 과정에서 추가적으로 고려해볼 만한 사항은? (5점)
###
3-2
모델을 학교 시스템에 적용하여 활용하려한다. 모델 적용 및 운영과정에서 고려해볼 만한 사항? (5점)
Show code cell source
###
4번
데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p4_.csv
status : 생존 여부 (death: 죽음 / event lost: 생존)
company : 회사구분
4-1
Kaplan Meier 방법 사용 생존분석 수행. 회사부품별 25, 35, 45 개월에서의 생존 확률 (소숫점 3자리 ,5점)
###
4-2
두 회사간 생존시간 차이를 log-rank 방식으로 검정하시오. 가설설정, 통계량, 귀무가설 기각여부 판단(10점)
###
5번
데이터 url: https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p5_.csv
data형식
한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터
{시식전} _ {구매의사 유 or 무} __ {시식후} _ {구매의사 유 or 무}
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p5_.csv ')
df.head()
data | userId | |
---|---|---|
0 | 시식전_유__시식후_유 | user_1 |
1 | 시식전_유__시식후_유 | user_2 |
2 | 시식전_유__시식후_유 | user_3 |
3 | 시식전_유__시식후_유 | user_4 |
4 | 시식전_유__시식후_유 | user_5 |
###
5-1
시식여부가 구매의사에 영향을 주는지 가설을 설정하시오(5점)
###
5-2
검정하고 결과를 분석하시오(5점)
###
6-1
A,B 지역 학생의 점수에 차이가 있는지 가설을 설정하고 정하시오 (10점) dataurl : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p6.csv
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p6.csv')
df.head()
score | school_name | ID | |
---|---|---|---|
0 | 91.0 | A | 1 |
1 | NaN | A | 2 |
2 | NaN | A | 3 |
3 | NaN | A | 4 |
4 | NaN | A | 5 |
###
7-1
몸무게를 제어한다고 생각하고, 나이와 콜레스테롤 상관계수 및 유의확률 구하라(10점)
데이터 출처 : https://www.kaggle.com/datasets/hangawqadir/erbil-heart-disease-dataset
데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p7.csv
연령, 몸무게,콜레스테롤 수치 데이터
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p7.csv')
df.head()
age | Cholesterol | weight | |
---|---|---|---|
0 | 65 | 69.0 | 111.0 |
1 | 54 | 117.0 | 81.0 |
2 | 61 | 86.2 | 72.0 |
3 | 57 | 76.0 | 78.0 |
4 | 62 | 160.0 | 61.0 |
###
7-2
상관계수를 유의수준 0.05하에서 검정하라 (5점)
###
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다