ADP 29회 실기 문제#
1-1
계약자고유번호를 기준으로 거주연도 별 여러개의 데이터가 쌓여 있다. 각 계약자고유번호에 대해 가장 최신의 거주연도 행만 남겨라.
데이터 출처 : https://www.data.go.kr/data/15094266/fileData.do 후처리
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p1.csv
데이터 설명 : 대구도시공사_빅데이터_영구임대아파트 입주자 퇴거여부 데이터, 고유번호를 가진 계약자와 특정 아파트에 대해 매년 퇴거여부를 기록한 데이터
Show code cell source
import pandas as pd
df =pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p1.csv',encoding= 'cp949')
df.head()
순번 | 계약구분 | 재계약횟수 | 거주개월 | 아파트 이름 | 아파트 ID | 아파트 평점 | 호실고유번호 | 층 | 평형대 | ... | 퇴거연도 | 거주연도 | 월세(원) | 보증금(원) | 대표나이 | 나이 | 성별 | 결혼여부 | 거주자 수 | 퇴거여부 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | ... | NaN | 2008 | 47100 | 3646000 | 46 | 33 | 남 | 미혼 | 3 | 미퇴거 |
1 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | ... | NaN | 2009 | 56500 | 4375000 | 46 | 34 | 남 | 미혼 | 3 | 미퇴거 |
2 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | ... | NaN | 2010 | 56500 | 4375000 | 46 | 35 | 남 | 미혼 | 3 | 미퇴거 |
3 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | ... | NaN | 2011 | 69900 | 5408000 | 46 | 36 | 남 | 미혼 | 3 | 미퇴거 |
4 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | ... | NaN | 2012 | 69900 | 5408000 | 46 | 37 | 남 | 미혼 | 3 | 미퇴거 |
5 rows × 23 columns
###
1-2
EDA 및 결측치 처리 (시각화 포함)
Show code cell source
###
1-3
이상치 처리
Show code cell source
###
2-1
재계약 횟수의 중앙값을 기준으로 중앙값보다 크거나 같으면 ‘높음’, 작으면 ‘낮음’ 으로 재계약 횟수 이분 변수를 구성하시오.
Show code cell source
###
2-2
차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오.
Show code cell source
###
3-1
재계약 횟수 이분변수를 기준으로 세그먼트를 구분하고 각 세그먼트의 특징을 분석하시오.
Show code cell source
###
3-2
재계약횟수 변수를 종속변수로 하는 회귀 분석을 두 가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오. 재계약횟수 이분변수를 종속변수로 하는 분류 분석을 두가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오.
###
3-3
최종 채택한 모델에서 각각 유의하게 작용하는 변수를 확인 하고 설명하시오
###
3-4
해당 데이터 분석결과로 얻을 수 있는 점 제시
Show code cell source
###
4-1
각 회차별로 1번 타자의 출루 (1,2,3루타와 사사구(볼넷, 몸에맞는공))가 있는 경우에 대해 득점이 발생 했는지 확인하고자 한다. 이를 위한 전처리를 수행하라. (단, 첫 번째 혹은 두 번째 타자가 홈런을 친 경우 해당 회차 데이터는 제외한다.)
데이터 출처 : https://www.kaggle.com/datasets/pschale/mlb-pitch-data-20152018 데이터를 후처리
데이터 링크 : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p2_.csv
데이터 설명 :
A 야구구단의 시합 결과중 일부를 나타낸다.
각 행은 하나의 경기를 의미(game_id)하며 9회차(= 9이닝) 동안 1번타자, 2번타자의 출루 정보를 의미한다.
각 컬럼에 대한 설명은 아래 이미지와 같으며, value값의 index는 이미지의 ‘수치 의미’ 열을 통해 확인 할 수 있다.
###
4-2
4-1 데이터에 대해 Logistic Regression을 적용하고 2번타자의 희생번트 여부에 대한 회귀 계수 검정을 하라
###
4-3
SMOTE (random_state =0 지정)를 적용하여 data imbalance를 해결하라
###
4-4
4-3 구성 데이터에 Logistic Regression을 적용하고 결과를 분석하라
###
5
제품 A의 불량률은 0.03이다. 25개의 제품을 뽑았을 때 3개가 불량일 확률을 구하시오. (소수점 다섯 째 자리에서 반올림)
###
6
C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.
###
7-1
각 차종 별 범퍼 파손의 정도에 차이가 유의한지 검정하라.
데이터 설명 : 아래 데이터는 a,b,c,d 네 차종 각각 5회 실험 시 범퍼 파손 정도 이다. (단, 각 모집단은 정규분포를 따르며 모집단 간 등분산성을 가정한다.)
데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p7.csv
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p7.csv')
df.head()
name | ratio | |
---|---|---|
0 | A | 10.993428 |
1 | A | 9.723471 |
2 | A | 11.295377 |
3 | A | 13.046060 |
4 | A | 9.531693 |
###
7-2
귀무가설을 채택한다면 그 의미를 해석하고, 귀무가설을 기각하였다면 사후분석을 시행하라.¶
###
8
L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)
###