본문 바로가기
Python/python_pandas 입문 [책]

[python_pandas 입문] 공부 # 1일차

by happy_bigdata 2021. 1. 8.

2021/01/08 ~ 2021/01/26 

[데이터 분석을 위한 판 다스 입문] 책을 통해 판다스를 학습할 계획이다.

 

파이썬을 이용한 데이터 분석을 하기 위해서, 판다스는 없어서는 안될 존재라고 생각이 든다.

다양한 데이터 분석을 하기 위한 준비 과정이라고 생각하며, 대학교 2학년이 되기 전 파이썬에 대한 준비를 완벽히 하고 싶다! 


# 공부 1일차 (1장, 2장)

 

1일차에서 공부한 내용은 다음과 같다.

- 판다스 실습 환경 준비

- 데이터 집합 불러오기

- 데이터 추출하기

- 기초적인 통계 계산

- 그래프 그리기

 


 

중요 & 헷갈리는 것 정리

 

print(type(df))

  => 데이터 타입 확인

print(df.shape) 

  => (1704, 6) (행, 열)

print(df.info())

  => 데이터의 여러 정보 확인

 

 

# 열 단위 데이터 추출

 

country_df = df['country']

country_df = df[['country', 'continent', 'year']]

print(country_df)

 

 

# 행 단위 데이터 추출

 

loc - 인덱스를 기준으로 행 데이터 추출

iloc - 행 번호를 기준으로 행 데이터 추출

 

ex) print(df.loc[[0, 99, 999]])

     print(df.iloc[[0, 99, 999]])

 

df.loc[[행],[열]] & df.iloc[[행],[열]]

     

 

# tail메서드와 loc속성이 반환하는 자료형의 차이

 

subset_loc = df.loc[0]     -> 데이터 자료형 : 시리즈

subset_tail = df.tail(n=1)  -> 데이터 자료형 : 데이터프레임

 

 

# 데이터 그룹화

 

grouped_year_df = df.groupby('year')
print(type(grouped_year_df))  -> 그룹화한 데이터의 자료형은 DataFrameGroupBy


multi_group_var = df.groupby(['year','continent'])[['lifeExp', 'gdpPercap']].mean()
print(multi_group_var) -> year, continent 열로 그룹화한 그룹 데이터프레임에서

                                 lifeExp, gdpPercap 열만 추출하여 평균값 구하기. 

 

 

#  '빈도수'

print(df.groupby('continent')['country'].nunique()) -> continent를 기준으로 데이터프레임을 만들고 country 열만

                                                                    추출하여 데이터의 빈도수 계산

# 그래프 그리기

%matplotlib inline

import matplotlib.pyplot as plt  불러오기!

 

global_yearly_life_expectancy = df.groupby('year')['lifeExp'].mean()  -> year 기준으로 그룹화한 데이터프레임에서                                                                                                   lifeExp열만 추출하여 평균 구하기

 

global_yearly_life_expectancy.plot()

 

요렇게 해서 그래프까지 출력 완료!_! 

다시한번 복습하고 하루를 마무리하려고 한다~~ 내일도 파이팅!

 

 

 

 

댓글