ADP 29회 실기 문제#

Hits

1-1

계약자고유번호를 기준으로 거주연도 별 여러개의 데이터가 쌓여 있다. 각 계약자고유번호에 대해 가장 최신의 거주연도 행만 남겨라.

Hide code cell source
import pandas as pd
df =pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p1.csv',encoding= 'cp949')
df.head()
순번 계약구분 재계약횟수 거주개월 아파트 이름 아파트 ID 아파트 평점 호실고유번호 평형대 ... 퇴거연도 거주연도 월세(원) 보증금(원) 대표나이 나이 성별 결혼여부 거주자 수 퇴거여부
0 1 유효 10 222 강남아파트 5 7.0 14520 1 12 ... NaN 2008 47100 3646000 46 33 미혼 3 미퇴거
1 1 유효 10 222 강남아파트 5 7.0 14520 1 12 ... NaN 2009 56500 4375000 46 34 미혼 3 미퇴거
2 1 유효 10 222 강남아파트 5 7.0 14520 1 12 ... NaN 2010 56500 4375000 46 35 미혼 3 미퇴거
3 1 유효 10 222 강남아파트 5 7.0 14520 1 12 ... NaN 2011 69900 5408000 46 36 미혼 3 미퇴거
4 1 유효 10 222 강남아파트 5 7.0 14520 1 12 ... NaN 2012 69900 5408000 46 37 미혼 3 미퇴거

5 rows × 23 columns

###

1-2

EDA 및 결측치 처리 (시각화 포함)

Hide code cell source
###

1-3

이상치 처리

Hide code cell source
###

2-1

재계약 횟수의 중앙값을 기준으로 중앙값보다 크거나 같으면 ‘높음’, 작으면 ‘낮음’ 으로 재계약 횟수 이분 변수를 구성하시오.

Hide code cell source
###

2-2

차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오.

Hide code cell source
###

3-1

재계약 횟수 이분변수를 기준으로 세그먼트를 구분하고 각 세그먼트의 특징을 분석하시오.

Hide code cell source
###

3-2

재계약횟수 변수를 종속변수로 하는 회귀 분석을 두 가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오. 재계약횟수 이분변수를 종속변수로 하는 분류 분석을 두가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오.

###

3-3

최종 채택한 모델에서 각각 유의하게 작용하는 변수를 확인 하고 설명하시오

###

3-4

해당 데이터 분석결과로 얻을 수 있는 점 제시

Hide code cell source
###

4-1

각 회차별로 1번 타자의 출루 (1,2,3루타와 사사구(볼넷, 몸에맞는공))가 있는 경우에 대해 득점이 발생 했는지 확인하고자 한다. 이를 위한 전처리를 수행하라. (단, 첫 번째 혹은 두 번째 타자가 홈런을 친 경우 해당 회차 데이터는 제외한다.)

A 야구구단의 시합 결과중 일부를 나타낸다.
각 행은 하나의 경기를 의미(game_id)하며 9회차(= 9이닝) 동안 1번타자, 2번타자의 출루 정보를 의미한다.
각 컬럼에 대한 설명은 아래 이미지와 같으며, value값의 index는 이미지의 ‘수치 의미’ 열을 통해 확인 할 수 있다.

###

4-2

4-1 데이터에 대해 Logistic Regression을 적용하고 2번타자의 희생번트 여부에 대한 회귀 계수 검정을 하라

###

4-3

SMOTE (random_state =0 지정)를 적용하여 data imbalance를 해결하라

###

4-4

4-3 구성 데이터에 Logistic Regression을 적용하고 결과를 분석하라

###

5

제품 A의 불량률은 0.03이다. 25개의 제품을 뽑았을 때 3개가 불량일 확률을 구하시오. (소수점 다섯 째 자리에서 반올림)

###

6

C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.

###

7-1

각 차종 별 범퍼 파손의 정도에 차이가 유의한지 검정하라.

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/29/p7.csv')
df.head()
name ratio
0 A 10.993428
1 A 9.723471
2 A 11.295377
3 A 13.046060
4 A 9.531693
###

7-2

귀무가설을 채택한다면 그 의미를 해석하고, 귀무가설을 기각하였다면 사후분석을 시행하라.¶

###

8

L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)

###