본문 바로가기
Python/python_pandas 입문 [책]

[python_pandas 입문] 공부 # 5일차

by happy_bigdata 2021. 1. 18.

# 공부한 내용 (6장~7장)

- 누락값 확인

- 누락값 처리

- melt 메서드 처리

 

 


# 누락값 

NaN, NAN, nan

 

 

# 누락값 확인

import pandas as pd

print(pd.isnull(NAN))

print(pd.notnull(NaN))

 

 

# 누락값의 개수 구하기

# 전체 개수에서 누락값이 아닌 값의 개수 빼기

num_rows = ebola.shape[0]

num_missing = num_rows - ebola.count( )

print(num_missing)

 

 

# 누락값 처리하기

# 0으로 변경

print(ebola.fillna(0).iloc[0:10, 0:5])

 

# 누락값이 나타나기 전의 값으로 변경

print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

 

# 누락값이 나타난 이후의 첫번째 값으로 변경

print(ebola.fillna(method='bfill').iloc[0:10, 0:5])

 

# 중간값을 구한 다음 그 값으로 변경

print(ebola.interpolate( ).iloc[0:10, 0:5])

 

 

# 계산

# 누락값을 무시한 채 계산 -> skipna = True

print(ebola.Cases_Guinea.sum(skipna=True))

 

# 누락값을 포함해 계산 -> skipna = False

print(ebola.Cases_Guinea.sum(skipna=False))

 

 

 

# melt 메서드

 - id_vars : 위치를 그대로 유지할 열의 이름 지정

 - value_vars : 행으로 위치를 변경할 열의 이름을 지정

 - var_name : value_vars로 위치를 변경한 열의 이름을 지정

 - value_name : var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정

 

 

# pew 데이터

(퓨 리서치 센터에서 조사한 '미국의 소득과 종교' 데이터)

(퓨 리서치 센터 : 세계의 여론 조사, 인구 통계 등 다양한 사회과학 연구를 수행하는 곳)

pew_long = pd.melt(pew, id_vars='religion')

print(pew_long.head( ))                      # variable, value처럼 데이터 내 소득 정보를 행으로 이동.

 

pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count'

print(pew_long.head( ))

 

 

 

# billboard 차트 데이터

billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name= 'rating'

 

print(billboard_long.head( ))

 

데이터를 다룰때 주의해야하는 누락값에 대해 학습하고 직접 변환하는 과정도 배웠다. 누락값은 데이터를 어떻게 사용ㅎ던지 간에 중요하기때문에 반드시 익혀두어야 겠다고 생각하였다!_! 남은 챕터도 파이팅.

댓글