ADP 15회 실기 문제#
아주 구석진 페이지까지 오셨군요. 떠나시기전에 광고클릭 한번 가능하십니까?
Attention
1번
데이터 확인 및 전처리
1.1 EDA와 시각화 및 통계량 제시
1.2 변수 선택(VIF), 파생변수 생성, 데이터 분할(train/test(20%)) ,시각화와 통계량을 제시하시오
1.3 종속변수들중 “1”인지 아닌지 판단하려한다. 종속변수를 1과 1이 아닌 값으로 치환하고 로지스틱 회귀 분석을 실시하라. confusionMatrix를 확인 및 cut off value 정하여라
1.4 종속변수(y)를 다항(7 class)인 상태에서 SVM을 포함하여 3가지 알고리즘으로 평가하라
1.5 종속변수를 제외한 나머지 데이터를 바탕으로 군집분석을 실시하고 최적의 군집수와 군집 레이블을 구하여라. 군집레이블을 추가한 데이터를 1-4에서 만든 모델중 가장 성능이 좋았던 하나의 모델에 다시 학습하여 F1-score를 비교하라
데이터 설명
철강데이터 종속변수 : target
Show code cell source
###
2번
데이터 확인 및 전처리
데이터 설명
데이터 출처 : 직접제작
데이터 설명 : 2050년 1년동안의 5유형(A,B,C,D,E)의 전력사용량을 나타낸다. 각유형의 전력사용량은 1분마다 갱신되며 그 값은 누적된다.
6시간이 지나면(00:00, 06:00, 12:00, 18:00시에) 전력사용량은 0으로 초기화 된다.
problem2_usage.csv
6시간 간격의 총 전력사용량의 데이터이다. timestamp순서는 섞여있다.
6시간 간격의 특정 시간대(마지막시각 ‘05:59’,’11:59’,’17:59’,’23:59’)의 전력 총합을 나타낸다.
데이터의 총합을 구해서 비교할때 부동소수점 오류가 날수 있다. 파이썬의 경우 round(4)를 취하여 해결한다.problem2_usage_history.csv
1분간격의 A,B,C,D,E 유형의 소비 누적 전력을 나타낸다. 같은 6시간간격의 시간대의 데이터는 같은 “6hour_index”값을 가진다.
00:00, 06:00, 12:00, 18:00시에는 5유형의 전력은 초기화 된다.
데이터의 총합을 구해서 비교할때 부동소수점 오류가 날수 있다. 파이썬의 경우 round(4)를 취하여 해결한다.problem2_avg_tem.csv
2050년 1년동안 일자별 평균 온도를 나타낸다
2-1번
usage의 총사용량을 아래와 같은 모양으로 연월별 총합으로 계산하여 CSV 파일로 작성하시오
일자별 총사용량은 누적사용량이 갱신되기 직전의 최대값들의 합으로 계산한다
[‘05:59’,’11:59’,’17:59’,’23:59’] 시간대의 A,B,C,D,E의 컬럼별 총합이 각 유형의 일일 사용량이다
2-2번
가로축을 요일(일~월) 세로축을 평균 전력사용량으로 하는 그래프를 그려라. 각 유형별로 색을 다르게 표현하여 5개의 line plot을 그리며 범례를 표시하라
Show code cell source
###
2-3번
요일별 각 유형의 평균 전력 사용량 간에 연관성이 있는지 검정하라
Show code cell source
###
2-4번
일자(매일)마다 각 유형의 전력사용량의 합을 데이터프레임으로 구하고 일자 데이터에서의 유형별 온도와의 상관계수를 각각 구하여라
Show code cell source
###