28회 기출문제
2023.03.12
머신러닝 1
| row | sex | age | pstatus | medu | fedu | guardian | traveltime | studytime | failures | freetime | famrel | absences |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | F | 18 | A | 4 | 4 | mother | 2 | 2 | 0 | 3 | 4 | 2 |
| 1 | F | 17 | T | 1 | 1 | father | 1 | 2 | 0 | 3 | 5 | 1 |
| 2 | F | 15 | T | 1 | 1 | mother | 1 | 2 | 3 | 3 | 4 | 3 |
| 3 | F | 15 | T | 4 | 2 | mother | 1 | 3 | 0 | 2 | 3 | 0 |
| 4 | F | 16 | T | 3 | 3 | father | 1 | 2 | 0 | 3 | 4 | 1 |
데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… EDA를 진행하고 (+시각화) , 차원축소의 필요성이 있는지 확인 (5점)
데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… 데이터 품질 개선을 위한 방법이 있는지 찾고 데이터셋을 재생성하라 (5점)
데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… 1.2에서 제시한 방법이 데이터 과적합이 된다는 가정하에 어떻게 해결할 수 있을지 2가지 개선안 제시, 각방법들의 장단점 기술 (10점)
1-2 데이터셋을 기준으로 random forest, neural network , lightgbm 3가지 방식으로 학교 결석 횟수등급을 예측하는 모델을 만들어라, f1 score로 모델을 평가하라 (5점)
hard voting, soft voting에 대한 장단점을 설명하고 1-4의 3가지 모델로 구현하라. 두 방식의 f1-score를 비교하라 (10점)
총 5개 모델(RF, NN, LGBM, 하드보팅, 소프트보팅) 중 실시간 온라인 시스템에 가장 적합한 모델과 선정이유를 객관적으로 제시하라 (5점)
적정 모델과 선정 및 모델링 과정에서 추가적으로 고려해볼 만한 사항은? (5점)
모델을 학교 시스템에 적용하여 활용하려한다. 모델 적용 및 운영과정에서 고려해볼 만한 사항? (5점)
통계 1
| row | time(month) | status | company |
|---|---|---|---|
| 0 | 1 | event lost | X |
| 1 | 2 | event lost | X |
| 2 | 3 | event lost | X |
| 3 | 4 | event lost | X |
| 4 | 5 | event lost | X |
데이터 url : status : 생존 여부 (death: 죽음 / event lost: 생존) company : 회사구분 Kaplan Meier 방법 사용 생존분석 수행. 회사부품별 25, 35, 45 개월에서의 생존 확률 (소숫점 3자리 ,5점)
데이터 url : status : 생존 여부 (death: 죽음 / event lost: 생존) company : 회사구분 두 회사간 생존시간 차이를 log-rank 방식으로 검정하시오. 가설설정, 통계량, 귀무가설 기각여부 판단(10점)
통계 2
| row | data | userId |
|---|---|---|
| 0 | 시식전_유__시식후_유 | user_1 |
| 1 | 시식전_유__시식후_유 | user_2 |
| 2 | 시식전_유__시식후_유 | user_3 |
| 3 | 시식전_유__시식후_유 | user_4 |
| 4 | 시식전_유__시식후_유 | user_5 |
데이터 url: data형식 한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터 {시식전} _ {구매의사 유 or 무} __ {시식후} _ {구매의사 유 or 무} 시식여부가 구매의사에 영향을 주는지 가설을 설정하시오(5점)
데이터 url: data형식 한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터 {시식전} _ {구매의사 유 or 무} __ {시식후} _ {구매의사 유 or 무} 검정하고 결과를 분석하시오(5점)
통계 3
| row | score | school_name | ID |
|---|---|---|---|
| 0 | 91.0 | A | 1 |
| 1 | nan | A | 2 |
| 2 | nan | A | 3 |
| 3 | nan | A | 4 |
| 4 | nan | A | 5 |
A,B 지역 학생의 점수에 차이가 있는지 가설을 설정하고 정하시오 (10점) dataurl :
통계 4
| row | age | Cholesterol | weight |
|---|---|---|---|
| 0 | 65.0 | 69.0 | 111.0 |
| 1 | 54.0 | 117.0 | 81.0 |
| 2 | 61.0 | 86.2 | 72.0 |
| 3 | 57.0 | 76.0 | 78.0 |
| 4 | 62.0 | 160.0 | 61.0 |
몸무게를 제어한다고 생각하고, 나이와 콜레스테롤 상관계수 및 유의확률 구하라(10점) 데이터 출처 : 데이터 url : 연령, 몸무게,콜레스테롤 수치 데이터
상관계수를 유의수준 0.05하에서 검정하라 (5점)
문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요
기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.