[python_pandas 입문] 공부 # 1일차

2021/01/08 ~ 2021/01/26

[데이터 분석을 위한 판 다스 입문] 책을 통해 판다스를 학습할 계획이다.

파이썬을 이용한 데이터 분석을 하기 위해서, 판다스는 없어서는 안될 존재라고 생각이 든다.

다양한 데이터 분석을 하기 위한 준비 과정이라고 생각하며, 대학교 2학년이 되기 전 파이썬에 대한 준비를 완벽히 하고 싶다!

# 공부 1일차 (1장, 2장)

1일차에서 공부한 내용은 다음과 같다.

- 판다스 실습 환경 준비

- 데이터 집합 불러오기

- 데이터 추출하기

- 기초적인 통계 계산

- 그래프 그리기

중요 & 헷갈리는 것 정리

print(type(df))

=> 데이터 타입 확인

print(df.shape)

=> (1704, 6) (행, 열)

print(df.info())

=> 데이터의 여러 정보 확인

# 열 단위 데이터 추출

country_df = df['country']

country_df = df[['country', 'continent', 'year']]

print(country_df)

# 행 단위 데이터 추출

loc - 인덱스를 기준으로 행 데이터 추출

iloc - 행 번호를 기준으로 행 데이터 추출

ex) print(df.loc[[0, 99, 999]])

print(df.iloc[[0, 99, 999]])

df.loc[[행],[열]] & df.iloc[[행],[열]]

# tail메서드와 loc속성이 반환하는 자료형의 차이

subset_loc = df.loc[0] -> 데이터 자료형 : 시리즈

subset_tail = df.tail(n=1) -> 데이터 자료형 : 데이터프레임

# 데이터 그룹화

grouped_year_df = df.groupby('year')
print(type(grouped_year_df)) -> 그룹화한 데이터의 자료형은 DataFrameGroupBy

multi_group_var = df.groupby(['year','continent'])[['lifeExp', 'gdpPercap']].mean()
print(multi_group_var) -> year, continent 열로 그룹화한 그룹 데이터프레임에서

lifeExp, gdpPercap 열만 추출하여 평균값 구하기.

# '빈도수'

print(df.groupby('continent')['country'].nunique()) -> continent를 기준으로 데이터프레임을 만들고 country 열만

추출하여 데이터의 빈도수 계산

# 그래프 그리기

%matplotlib inline

import matplotlib.pyplot as plt 불러오기!

global_yearly_life_expectancy = df.groupby('year')['lifeExp'].mean() -> year 기준으로 그룹화한 데이터프레임에서 lifeExp열만 추출하여 평균 구하기

global_yearly_life_expectancy.plot()

요렇게 해서 그래프까지 출력 완료!_!

다시한번 복습하고 하루를 마무리하려고 한다~~ 내일도 파이팅!

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

[python_pandas 입문] 공부 # 6일차 (0)	2021.01.20
[python_pandas 입문] 공부 # 5일차 (0)	2021.01.18
[python_pandas 입문] 공부 # 4일차 (0)	2021.01.15
[python_pandas 입문] 공부 # 3일차 (0)	2021.01.10
[python_pandas 입문] 공부 # 2일차 (0)	2021.01.09

데이터 분석을 향한 성장기

[python_pandas 입문] 공부 # 1일차

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

댓글

티스토리툴바

[python_pandas 입문] 공부 # 1일차

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

관련글

댓글

티스토리툴바