ADP 28회 실기 문제#

Hits

1번

  • 데이터 출처 : https://www.kaggle.com/datasets/dipam7/student-grade-prediction?resource=download 후처리

  • 데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p1.csv

  • 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences)

    • sex : 성별 (F : 여성 / M :남성)

    • age : 나이

    • pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거)

    • medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년), 2 - 5~9학년, 3 - 중등 교육 또는 4 - 고등 교육)

    • fedu : 아버지 교육(0 - 없음, 1 - 초등 교육(4학년), 2 - 5 - 9학년, 3 - 중등 교육 또는 4 - 고등 교육)

    • guardian : 학생의 보호자

    • traveltime : 집에서 학교까지 이동 시간(1 - <15분, 2 - 15 - 30분, 3 - 30분 - 1시간, 또는 4 - >1시간)

    • studytime : 주간 학습 시간(1 - <2시간, 2 - 2 - 5시간, 3 - 5 - 10시간 또는 4 - >10시간)

    • failures : 과거 클래스 실패 수(n if 1<=n<3, 그렇지 않으면 4)

    • freetime : 방과 후 자유 시간(숫자: 1 - 매우 낮음에서 5 - 매우 높음)

    • famrel : 가족 관계의 질(숫자: 1 - 매우 나쁨에서 5 - 훌륭함)

    • absences : 학교 결석 횟수등급 (0~5, 높은 숫자일수록 많은 결석 횟수)

Hide code cell source
import pandas as pd
df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p1.csv")
df.head()
sex age pstatus medu fedu guardian traveltime studytime failures freetime famrel absences
0 F 18 A 4 4 mother 2 2 0 3 4 2
1 F 17 T 1 1 father 1 2 0 3 5 1
2 F 15 T 1 1 mother 1 2 3 3 4 3
3 F 15 T 4 2 mother 1 3 0 2 3 0
4 F 16 T 3 3 father 1 2 0 3 4 1

1-1

EDA를 진행하고 (+시각화) , 차원축소의 필요성이 있는지 확인 (5점)

Hide code cell source
###

1-2

데이터 품질 개선을 위한 방법이 있는지 찾고 데이터셋을 재생성하라 (5점)

Hide code cell source
###

1-3

1.2에서 제시한 방법이 데이터 과적합이 된다는 가정하에 어떻게 해결할 수 있을지 2가지 개선안 제시, 각방법들의 장단점 기술 (10점)

Hide code cell source
###

2-1

1-2 데이터셋을 기준으로 random forest, neural network , lightgbm 3가지 방식으로 학교 결석 횟수등급을 예측하는 모델을 만들어라, f1 score로 모델을 평가하라 (5점)

Hide code cell source
###

2-2

hard voting, soft voting에 대한 장단점을 설명하고 2-1의 3가지 모델로 구현하라. 두 방식의 f1-score를 비교하라 (10점)

Hide code cell source
###

2-3

총 5개 모델(RF, NN, LGBM, 하드보팅, 소프트보팅) 중 실시간 온라인 시스템에 가장 적합한 모델과 선정이유를 객관적으로 제시하라 (5점)

###

3-1

적정 모델과 선정 및 모델링 과정에서 추가적으로 고려해볼 만한 사항은? (5점)

###

3-2

모델을 학교 시스템에 적용하여 활용하려한다. 모델 적용 및 운영과정에서 고려해볼 만한 사항? (5점)

Hide code cell source
###

4번

4-1

Kaplan Meier 방법 사용 생존분석 수행. 회사부품별 25, 35, 45 개월에서의 생존 확률 (소숫점 3자리 ,5점)

###

4-2

두 회사간 생존시간 차이를 log-rank 방식으로 검정하시오. 가설설정, 통계량, 귀무가설 기각여부 판단(10점)

###

5번

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p5_.csv ')
df.head()
data userId
0 시식전_유__시식후_유 user_1
1 시식전_유__시식후_유 user_2
2 시식전_유__시식후_유 user_3
3 시식전_유__시식후_유 user_4
4 시식전_유__시식후_유 user_5
###

5-1

시식여부가 구매의사에 영향을 주는지 가설을 설정하시오(5점)

###

5-2

검정하고 결과를 분석하시오(5점)

###

6-1

A,B 지역 학생의 점수에 차이가 있는지 가설을 설정하고 정하시오 (10점) dataurl : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p6.csv

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p6.csv')
df.head()
score school_name ID
0 91.0 A 1
1 NaN A 2
2 NaN A 3
3 NaN A 4
4 NaN A 5
###

7-1

몸무게를 제어한다고 생각하고, 나이와 콜레스테롤 상관계수 및 유의확률 구하라(10점)

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p7.csv')
df.head()
age Cholesterol weight
0 65 69.0 111.0
1 54 117.0 81.0
2 61 86.2 72.0
3 57 76.0 78.0
4 62 160.0 61.0
###

7-2

상관계수를 유의수준 0.05하에서 검정하라 (5점)

###

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다