ADP 22회 실기 문제#
나 이거 만드느라 밤샜다.. 광고 눌러주라
Attention
1번
데이터 확인 및 전처리
1.1 탐색적 데이터 분석 수행(시각화 포함)
1.2 이상치 처리(이상값 대체방안 제시)
1.3 앞선 두 단계에서 얻은 향후 분석시 고려사항 작성
데이터 설명(피마 인디안 당뇨병 발병유무)
신체스펙
Pregnancies
Glucose
BloodPressure
SkinThickness
Insulin
BMI
DiabetesPedigreeFunction
Age
발병유무(종속변수) : Outcome
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/data1.csv')
df.head()
Pregnancies | Glucose | BloodPressure | SkinThickness | Insulin | BMI | DiabetesPedigreeFunction | Age | Outcome | |
---|---|---|---|---|---|---|---|---|---|
0 | 6 | 148 | 72 | 35 | 0 | 33.6 | 0.627 | 50 | 1 |
1 | 1 | 85 | 66 | 29 | 0 | 26.6 | 0.351 | 31 | 0 |
2 | 8 | 183 | 64 | 0 | 0 | 23.3 | 0.672 | 32 | 1 |
3 | 1 | 89 | 66 | 23 | 94 | 28.1 | 0.167 | 21 | 0 |
4 | 0 | 137 | 40 | 35 | 168 | 43.1 | 2.288 | 33 | 1 |
2번
1번 문제 데이터 참고하여
2.1 오버샘플링 과정 설명하고 결과 작성
2.2 언더샘플링 과정 설명하고 결과 작성
2.3 둘 중 하나를 선택하고 이유 설명
Show code cell source
###
3번
2번 문제 데이터 참고하여
3.1 최소 3개 이상 알고리즘 제시하고 정확도 측면의 모델 1개와 속도 측면의 모델 1개를 꼭 구현(총 2개 이상)
3.2 모델 비교하고 결과 설명
3.3 속도 개선을 위한 차원 축소 설명하고 수행, 예측 성능과 속도 비교하고 결과 작성
Show code cell source
###
4번
금속 성분 함유량 데이터(변수 1개) - 제품에 금속 재질 함유량의 분산이 1.3을 넘으면 불량이라고 보고 있는데 제조사별로 차이가 난다고 제보를 받았으며, 분산에 대해 검정을 수행하시오. (유의확률 0.05)
4.1 연구가설과 귀무가설 작성
4.2 양측 검정 시행
4.3 검정통계량, 가설채택
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/content.csv')
df.head()
content | |
---|---|
0 | 97.995295 |
1 | 101.478315 |
2 | 102.284913 |
3 | 98.993634 |
4 | 104.635232 |
5번
Lot별 200개에 대한 불량 제품 수량 데이터(변수 2개 - lot번호, 불량제품수)
5.1 불량률 관리도에 따라 관리중심선(CL : Center Line), 관리 상한선(UCL : Upper Control Limit), 하한선(LCL : Lower Control Limit) 구하기
5.2 관리도 시각화
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/error.csv')
df.head()
iot_number | error_case_number | |
---|---|---|
0 | 1 | 4.5 |
1 | 2 | 2.5 |
2 | 3 | 2.0 |
3 | 4 | 3.0 |
4 | 5 | 0.5 |