ADP 26회 실기 문제#
Attention
1번
데이터 확인 및 전처리
1.1 결측치를 확인하고, 결측치 제거할 것
1.2 이상치 제거하는 방법을 설명하고, 이상치 제거하고 난 결과를 통계적으로 나타낼 것
1.3 전처리한 데이터로 Kmeans, DBSCAN 등 방법으로 군집을 생성할 것
데이터 설명
InvoiceNo: Invoice number. Nominal, a 6-digit integral number uniquely assigned to each transaction. If this code starts with letter ‘c’, it indicates a cancellation.
StockCode: Product (item) code. Nominal, a 5-digit integral number uniquely assigned to each distinct product.
Description: Product (item) name. Nominal.
Quantity: The quantities of each product (item) per transaction. Numeric.
InvoiceDate: Invice Date and time. Numeric, the day and time when each transaction was generated.
UnitPrice: Unit price. Numeric, Product price per unit in sterling.
CustomerID: Customer number. Nominal, a 5-digit integral number uniquely assigned to each customer.
Country: Country name. Nominal, the name of the country where each customer resides.
출처
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem1.csv')
df.head()
InvoiceNo | StockCode | Description | Quantity | InvoiceDate | UnitPrice | CustomerID | Country | |
---|---|---|---|---|---|---|---|---|
0 | 563808 | 22432 | WATERING CAN PINK BUNNY | 6.0 | 8/19/2011 11:46 | 1.95 | 12626.0 | Germany |
1 | 561645 | 23166 | MEDIUM CERAMIC TOP STORAGE JAR | 12.0 | 7/28/2011 15:16 | 1.25 | 14911.0 | EIRE |
2 | 568651 | 20985 | HEART CALCULATOR | 12.0 | 9/28/2011 12:04 | 1.25 | 12362.0 | Belgium |
3 | 541711 | 22772 | PINK DRAWER KNOB ACRYLIC EDWARDIAN | 24.0 | 1/21/2011 11:18 | 1.25 | 14646.0 | Netherlands |
4 | 554134 | 21154 | RED RETROSPOT OVEN GLOVE | 10.0 | 5/23/2011 9:48 | 1.25 | 12583.0 | France |
2번
군집분석
2.1 위에서 생성한 군집들의 특성을 분석할 것
2.2 각 군집 별 대표 추천 상품을 도출할 것
2.3 CustomerID가 12413인 고객을 대상으로 상품을 추천할 것
Show code cell source
###
3번
통계
철강제품의 불량률을 조사하고자 한다. 이 때, 불량률의 90%, 추정오차한계가 5% 이내가 되기 위하여 적절한 표본의 크기 중 최소값은 얼마인가?
Show code cell source
###
4번
아래 그래프는 1월부터 9월까지의 은의 가격이다
4.1 은의 가격 및 이동평균값 3이 설정된 시계열 그래프를 그려라
4.2 1월 대비 9월의 은의 가격은 몇 % 올랐는가? 소수점 두번째 자리에서 반올림
Show code cell source
###
5번
아래 그래프는 A,B,C 자치구별 W 의원에 대한 찬성, 반대 지지를 나타낸다. 자치구별 지지율이 같은지에 대해서 검정하라
5.1 연구가설과 귀무가설을 설정하라
5.2 검정통계량 구하고 결론을 내라
Show code cell source
###
6번
A초등학교 남학생 16명과 여학생 9명의 혈압을 측정한 pressure.csv파일을 가지고 남녀학생의 평균 혈압에 차이가 없는지 분석하라. 단, 남학생과 여학생의 혈압 데이터는 정규분포를 따르며 등분산임을 가정한다.
6.1 연구가설과 귀무가설을 설정하라
6.2 통계량을 구하고, 연구가설 채택여부를 기술하라.
6.3 6.2 에서 구한 검정 통계량 값을 바탕으로 신뢰구간을 구하라
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/pressure.csv')
df.head()
gender | pressure | |
---|---|---|
0 | male | 106.8 |
1 | male | 100.8 |
2 | male | 84.5 |
3 | male | 104.2 |
4 | male | 107.0 |
7번
height(키), weight(몸무게), waist(허리둘레) 컬럼을 가진 problem7.csv파일을 가지고 다음을 분석하라
A시의 20대 남성 411명을 임의로 추출하여 키, 몸무게, 허리둘레를 조사하여 기록한 데이터이다.
이 데이터를 이용하여 20대 남성의 키와 허리둘레가 체중에 영향을 미치는지 알아보고자 한다.
7.1 아래 조건을 참고하여 회귀계수(반올림하여 소수점 두자리)를 구하시오.
베이지안 회귀
시드넘버 1234로 지정
1000번의 burn-in 이후 10,000의 MCMC를 수행
회귀계수의 사전분포는 부적절한 균일분포(inproper uniform prior distribution), 오차항의 분산의 사전분포는 역감마 분포로 지정. 이때, 형상(Shape)모수와 척도(Scale)모수는 각각 0.005로 지정.
7.2 위에서 만든 모델을 바탕으로 키 180cm, 허리둘레 85cm인 남성의 몸무게를 추정하라
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem7.csv')
df.head()
height | weight | waistline | |
---|---|---|---|
0 | 174.396 | 72.102 | 79.3787 |
1 | 179.656 | 81.255 | 80.6649 |
2 | 175.079 | 76.207 | 80.3166 |
3 | 180.804 | 81.354 | 80.8794 |
4 | 177.448 | 78.768 | 80.3499 |
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다