ADP 25회 실기 문제#
Attention
1번
데이터 확인 및 전처리
1.1 EDA, 이상치 제거 후 F(소비자별 구매빈도), M(소비자별 총 구매액) feature를 새로 생성해서 그 결과값으로 탐색적 분석 실시
1.2 F, M feature 기반으로 군집분석 실시
1.3 군집 결과의 적합성을 군집 내 응집도, 군집 간 분리도의 개념을 사용해서 서술
1.4 적합된 군집 별 특성에 대한 의견과 비즈니스적 판단 제시
데이터 설명
InvoiceNo: Invoice number. Nominal, a 6-digit integral number uniquely assigned to each transaction. If this code starts with letter ‘c’, it indicates a cancellation.
StockCode: Product (item) code. Nominal, a 5-digit integral number uniquely assigned to each distinct product.
Description: Product (item) name. Nominal.
Quantity: The quantities of each product (item) per transaction. Numeric.
InvoiceDate: Invice Date and time. Numeric, the day and time when each transaction was generated.
UnitPrice: Unit price. Numeric, Product price per unit in sterling.
CustomerID: Customer number. Nominal, a 5-digit integral number uniquely assigned to each customer.
Country: Country name. Nominal, the name of the country where each customer resides.
출처
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/25/problem1.csv')
df.head()
InvoiceNo | StockCode | Description | Quantity | InvoiceDate | UnitPrice | CustomerID | Country | |
---|---|---|---|---|---|---|---|---|
0 | 565857 | 84879 | ASSORTED COLOUR BIRD ORNAMENT | 16 | 9/7/2011 14:13 | 1.69 | 14911.0 | EIRE |
1 | 560452 | 22432 | WATERING CAN PINK BUNNY | 6 | 7/19/2011 9:51 | 1.95 | 12682.0 | France |
2 | 578509 | 22492 | MINI PAINT SET VINTAGE | 36 | 11/24/2011 13:17 | 0.65 | 12705.0 | Germany |
3 | 579345 | 22728 | ALARM CLOCK BAKELIKE PINK | 8 | 11/29/2011 11:46 | 3.75 | 12727.0 | France |
4 | 564039 | 21731 | RED TOADSTOOL LED NIGHT LIGHT | 12 | 8/22/2011 12:40 | 1.65 | 12645.0 | Germany |
2번
시계열분석
2.1 EDA와 시각화를 진행하라
2.2 결측치 처리와 해당 결측치 처리 방식에 대한 논리적 근거를 제시하라
2.3 계절성을 반영한 시계열 모델을 제시하고 정확도 측면에서 모델 성능 평가 할 것
2.4 분석 결과 활용 가능 여부에 대한 분석 전문가로서의 제안
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/25/problem2.csv',index_col = 0)
df.head()
counts | |
---|---|
0 | 544.3 |
1 | 603.1 |
2 | NaN |
3 | 533.4 |
4 | 619.5 |
3번
통계문제
3-1번
서울에서 영동까지 100km/h로 가고 영동에서 서울까지 80km/로 돌아왔을 때, 평균 속도는?
Show code cell source
###
3-2번
연매출이 3000, 4000, 5000이었다면 연평균 몇배가 증가한 것인가?
Show code cell source
###
3-3번
남성, 여성의 등산, 수영에 대한 취미 선호도 빈도표(2x2)를 보고, 남성 중에서 등산을 좋아할 확률을 구하시오
Show code cell source
###
3-4번
표본 10개의 분산이 90일 때 신뢰도 95%로 모분산의 신뢰구간을 추정
Show code cell source
###
4번
4번 임상 대상 20명에 대해 혈압약 투약 이전과 이후의 차이가 24, 표준편차 9 신뢰구간 95%, 차이가 존재하는지 확인하려한다
4.1 귀무가설과 연구가설을 제시하시오
4.2 검정 후 귀무가설 기각 여부 제시
Show code cell source
###
5번
공장 X,Y,Z의 평균 출하 소요시간을 여러 일자에 거쳐 측정한 데이터이다. 각 공장의 중위수의 차이가 존재하는지 확인하려 한다
5.1 귀무가설과 연구가설을 제시하시오
5.2 검정 후 귀무가설 기각 여부 제시
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/25/problem5.csv',encoding='cp949')
df.head()
출하 소요시간 | 공장명 | 공장별 출하 소요시간 순위 | |
---|---|---|---|
0 | 71 | Z | 11 |
1 | 75 | X | 14 |
2 | 71 | X | 12 |
3 | 53 | Z | 1 |
4 | 50 | X | 1 |
6번
1개년 50억원, 2개년 60억원, 3개년 70억원의 예산을 가지고 NPV(순현재가치)가 가장 높아지는 안을 제시하시오
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다