ADP 26회 실기 문제#

Hits

1번

데이터 확인 및 전처리

  • 1.1 결측치를 확인하고, 결측치 제거할 것

  • 1.2 이상치 제거하는 방법을 설명하고, 이상치 제거하고 난 결과를 통계적으로 나타낼 것

  • 1.3 전처리한 데이터로 Kmeans, DBSCAN 등 방법으로 군집을 생성할 것

  • 데이터 설명

    • InvoiceNo: Invoice number. Nominal, a 6-digit integral number uniquely assigned to each transaction. If this code starts with letter ‘c’, it indicates a cancellation.

    • StockCode: Product (item) code. Nominal, a 5-digit integral number uniquely assigned to each distinct product.

    • Description: Product (item) name. Nominal.

    • Quantity: The quantities of each product (item) per transaction. Numeric.

    • InvoiceDate: Invice Date and time. Numeric, the day and time when each transaction was generated.

    • UnitPrice: Unit price. Numeric, Product price per unit in sterling.

    • CustomerID: Customer number. Nominal, a 5-digit integral number uniquely assigned to each customer.

    • Country: Country name. Nominal, the name of the country where each customer resides.

  • 출처

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem1.csv')
df.head()
InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID Country
0 563808 22432 WATERING CAN PINK BUNNY 6.0 8/19/2011 11:46 1.95 12626.0 Germany
1 561645 23166 MEDIUM CERAMIC TOP STORAGE JAR 12.0 7/28/2011 15:16 1.25 14911.0 EIRE
2 568651 20985 HEART CALCULATOR 12.0 9/28/2011 12:04 1.25 12362.0 Belgium
3 541711 22772 PINK DRAWER KNOB ACRYLIC EDWARDIAN 24.0 1/21/2011 11:18 1.25 14646.0 Netherlands
4 554134 21154 RED RETROSPOT OVEN GLOVE 10.0 5/23/2011 9:48 1.25 12583.0 France

2번

군집분석

  • 2.1 위에서 생성한 군집들의 특성을 분석할 것

  • 2.2 각 군집 별 대표 추천 상품을 도출할 것

  • 2.3 CustomerID가 12413인 고객을 대상으로 상품을 추천할 것

Hide code cell source
###

3번

통계
철강제품의 불량률을 조사하고자 한다. 이 때, 불량률의 90%, 추정오차한계가 5% 이내가 되기 위하여 적절한 표본의 크기 중 최소값은 얼마인가?

Hide code cell source
###

4번

아래 그래프는 1월부터 9월까지의 은의 가격이다

  • 4.1 은의 가격 및 이동평균값 3이 설정된 시계열 그래프를 그려라

  • 4.2 1월 대비 9월의 은의 가격은 몇 % 올랐는가? 소수점 두번째 자리에서 반올림

image

Hide code cell source
###

5번

아래 그래프는 A,B,C 자치구별 W 의원에 대한 찬성, 반대 지지를 나타낸다. 자치구별 지지율이 같은지에 대해서 검정하라

  • 5.1 연구가설과 귀무가설을 설정하라

  • 5.2 검정통계량 구하고 결론을 내라

image

Hide code cell source
###

6번

A초등학교 남학생 16명과 여학생 9명의 혈압을 측정한 pressure.csv파일을 가지고 남녀학생의 평균 혈압에 차이가 없는지 분석하라. 단, 남학생과 여학생의 혈압 데이터는 정규분포를 따르며 등분산임을 가정한다.

  • 6.1 연구가설과 귀무가설을 설정하라

  • 6.2 통계량을 구하고, 연구가설 채택여부를 기술하라.

  • 6.3 6.2 에서 구한 검정 통계량 값을 바탕으로 신뢰구간을 구하라

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/pressure.csv')
df.head()
gender pressure
0 male 106.8
1 male 100.8
2 male 84.5
3 male 104.2
4 male 107.0

7번

height(키), weight(몸무게), waist(허리둘레) 컬럼을 가진 problem7.csv파일을 가지고 다음을 분석하라
A시의 20대 남성 411명을 임의로 추출하여 키, 몸무게, 허리둘레를 조사하여 기록한 데이터이다.
이 데이터를 이용하여 20대 남성의 키와 허리둘레가 체중에 영향을 미치는지 알아보고자 한다.

  • 7.1 아래 조건을 참고하여 회귀계수(반올림하여 소수점 두자리)를 구하시오.

    • 베이지안 회귀

    • 시드넘버 1234로 지정

    • 1000번의 burn-in 이후 10,000의 MCMC를 수행

    • 회귀계수의 사전분포는 부적절한 균일분포(inproper uniform prior distribution), 오차항의 분산의 사전분포는 역감마 분포로 지정. 이때, 형상(Shape)모수와 척도(Scale)모수는 각각 0.005로 지정.

  • 7.2 위에서 만든 모델을 바탕으로 키 180cm, 허리둘레 85cm인 남성의 몸무게를 추정하라

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/problem7.csv')
df.head()
height weight waistline
0 174.396 72.102 79.3787
1 179.656 81.255 80.6649
2 175.079 76.207 80.3166
3 180.804 81.354 80.8794
4 177.448 78.768 80.3499

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다