2021/01/08 ~ 2021/01/26
[데이터 분석을 위한 판 다스 입문] 책을 통해 판다스를 학습할 계획이다.
파이썬을 이용한 데이터 분석을 하기 위해서, 판다스는 없어서는 안될 존재라고 생각이 든다.
다양한 데이터 분석을 하기 위한 준비 과정이라고 생각하며, 대학교 2학년이 되기 전 파이썬에 대한 준비를 완벽히 하고 싶다!
# 공부 1일차 (1장, 2장)
1일차에서 공부한 내용은 다음과 같다.
- 판다스 실습 환경 준비
- 데이터 집합 불러오기
- 데이터 추출하기
- 기초적인 통계 계산
- 그래프 그리기
중요 & 헷갈리는 것 정리
print(type(df))
=> 데이터 타입 확인
print(df.shape)
=> (1704, 6) (행, 열)
print(df.info())
=> 데이터의 여러 정보 확인
# 열 단위 데이터 추출
country_df = df['country']
country_df = df[['country', 'continent', 'year']]
print(country_df)
# 행 단위 데이터 추출
loc - 인덱스를 기준으로 행 데이터 추출
iloc - 행 번호를 기준으로 행 데이터 추출
ex) print(df.loc[[0, 99, 999]])
print(df.iloc[[0, 99, 999]])
df.loc[[행],[열]] & df.iloc[[행],[열]]
# tail메서드와 loc속성이 반환하는 자료형의 차이
subset_loc = df.loc[0] -> 데이터 자료형 : 시리즈
subset_tail = df.tail(n=1) -> 데이터 자료형 : 데이터프레임
# 데이터 그룹화
grouped_year_df = df.groupby('year')
print(type(grouped_year_df)) -> 그룹화한 데이터의 자료형은 DataFrameGroupBy
multi_group_var = df.groupby(['year','continent'])[['lifeExp', 'gdpPercap']].mean()
print(multi_group_var) -> year, continent 열로 그룹화한 그룹 데이터프레임에서
lifeExp, gdpPercap 열만 추출하여 평균값 구하기.
# '빈도수'
print(df.groupby('continent')['country'].nunique()) -> continent를 기준으로 데이터프레임을 만들고 country 열만
추출하여 데이터의 빈도수 계산
# 그래프 그리기
%matplotlib inline
import matplotlib.pyplot as plt 불러오기!
global_yearly_life_expectancy = df.groupby('year')['lifeExp'].mean() -> year 기준으로 그룹화한 데이터프레임에서 lifeExp열만 추출하여 평균 구하기
global_yearly_life_expectancy.plot()

요렇게 해서 그래프까지 출력 완료!_!
다시한번 복습하고 하루를 마무리하려고 한다~~ 내일도 파이팅!
'Python > python_pandas 입문 [책]' 카테고리의 다른 글
| [python_pandas 입문] 공부 # 6일차 (0) | 2021.01.20 |
|---|---|
| [python_pandas 입문] 공부 # 5일차 (0) | 2021.01.18 |
| [python_pandas 입문] 공부 # 4일차 (0) | 2021.01.15 |
| [python_pandas 입문] 공부 # 3일차 (0) | 2021.01.10 |
| [python_pandas 입문] 공부 # 2일차 (0) | 2021.01.09 |
댓글