라이브러리 학습
라이브러리 학습은 파이썬 기본문법을 익힌 뒤, 실제 데이터 분석에서 자주 쓰는 도구를 배우는 단계입니다.
여기서 중요한 점은 “라이브러리 이름을 외우는 것”이 아니라 “어떤 상황에서 어떤 도구를 꺼내 쓰는지”를 이해하는 것입니다.
학습 내용
- 데이터 분석 라이브러리를 왜 배우는지 이해하기
pandas,sklearn,statsmodels,scipy의 역할을 구분하기- 각 라이브러리 페이지를 어떤 순서로 학습하면 좋은지 파악하기
- 라이브러리를 가져오고 기본 객체를 확인하는 감각 익히기
파이썬 기본문법만으로도 코드를 작성할 수 있지만, 실제 데이터 분석에서는 이미 잘 만들어진 도구를 활용해야 속도와 정확도가 올라갑니다.
pandas는 표 데이터를 읽고 정리할 때 사용합니다.sklearn은 전처리, 학습용/평가용 데이터 분리, 모델 학습에 사용합니다.statsmodels는 회귀분석 결과를 해석할 때 자주 사용합니다.scipy는 t검정, 정규성검정처럼 통계 검정을 실행할 때 사용합니다.
즉 라이브러리는 “내가 모든 기능을 직접 만들지 않아도 되게 해 주는 실무 도구”입니다.
- pandas 기초: CSV 파일 읽기, 열 선택, 조건 필터링, 정렬, 집계
- sklearn 기초: 데이터 분리, 스케일링, 회귀/분류 모델 학습, 예측
- statsmodels 기초: 회귀모형 적합, 계수 해석, p값 확인
- scipy 기초: 정규성검정, t검정, 카이제곱검정 같은 통계 검정
처음부터 네 라이브러리를 모두 깊게 이해할 필요는 없습니다. 각 페이지에서 “이 도구가 언제 필요한지”를 먼저 잡고, 문제를 풀며 손에 익히는 것이 더 중요합니다.
이 순서를 추천하는 이유는 pandas가 데이터를 다루는 출발점이기 때문입니다. 표 데이터를 읽고 정리할 수 있어야 그다음 단계인 모델링과 통계 검정이 자연스럽게 이어집니다.
라이브러리 페이지를 공부할 때는 아래 흐름을 계속 반복하세요.
- 먼저
import문으로 라이브러리를 불러옵니다. - 예시 코드에서 객체 이름이 무엇인지 확인합니다.
- 결과를
print()로 직접 확인합니다. - 문제를 풀 때는 변수 이름과 함수 이름을 지시문 그대로 맞춥니다.
라이브러리를 잘 쓰는 사람은 복잡한 코드를 한 번에 쓰는 사람이 아니라, 작은 결과를 계속 확인하면서 안전하게 이어 가는 사람입니다.
문제 1pandas 가져오기
에디터 로딩 중...
코드 입력 환경을 준비하고 있습니다.
# 문제 1. pandas 가져오기 # pandas를 pd라는 이름으로 import하고, data 딕셔너리로 DataFrame을 만든 뒤 shape를 출력하라. # DataFrame 변수 이름은 df로 작성하라. data = { "store": ["강남", "마포"], "sales": [120000, 98000], }
문제 2도전: 사용할 라이브러리 고르기
에디터 로딩 중...
코드 입력 환경을 준비하고 있습니다.
# 문제 2. 도전: 사용할 라이브러리 고르기 # 첫 번째 줄에는 표 데이터를 읽고 정리할 때 가장 먼저 떠올릴 라이브러리 이름을 출력하라. # 두 번째 줄에는 회귀분석 결과를 해석할 때 자주 쓰는 라이브러리 이름을 출력하라. # 출력 문자열은 각각 pandas, statsmodels로 작성하라.