[python_pandas 입문] 공부 # 5일차

# 공부한 내용 (6장~7장)

- 누락값 확인

- 누락값 처리

- melt 메서드 처리

# 누락값

NaN, NAN, nan

# 누락값 확인

import pandas as pd

print(pd.isnull(NAN))

print(pd.notnull(NaN))

# 누락값의 개수 구하기

# 전체 개수에서 누락값이 아닌 값의 개수 빼기

num_rows = ebola.shape[0]

num_missing = num_rows - ebola.count( )

print(num_missing)

# 누락값 처리하기

# 0으로 변경

print(ebola.fillna(0).iloc[0:10, 0:5])

# 누락값이 나타나기 전의 값으로 변경

print(ebola.fillna(method='ffill').iloc[0:10, 0:5])

# 누락값이 나타난 이후의 첫번째 값으로 변경

print(ebola.fillna(method='bfill').iloc[0:10, 0:5])

# 중간값을 구한 다음 그 값으로 변경

print(ebola.interpolate( ).iloc[0:10, 0:5])

# 계산

# 누락값을 무시한 채 계산 -> skipna = True

print(ebola.Cases_Guinea.sum(skipna=True))

# 누락값을 포함해 계산 -> skipna = False

print(ebola.Cases_Guinea.sum(skipna=False))

# melt 메서드

- id_vars : 위치를 그대로 유지할 열의 이름 지정

- value_vars : 행으로 위치를 변경할 열의 이름을 지정

- var_name : value_vars로 위치를 변경한 열의 이름을 지정

- value_name : var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정

# pew 데이터

(퓨 리서치 센터에서 조사한 '미국의 소득과 종교' 데이터)

(퓨 리서치 센터 : 세계의 여론 조사, 인구 통계 등 다양한 사회과학 연구를 수행하는 곳)

pew_long = pd.melt(pew, id_vars='religion')

print(pew_long.head( )) # variable, value처럼 데이터 내 소득 정보를 행으로 이동.

pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count'

print(pew_long.head( ))

# billboard 차트 데이터

billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name= 'rating'

print(billboard_long.head( ))

데이터를 다룰때 주의해야하는 누락값에 대해 학습하고 직접 변환하는 과정도 배웠다. 누락값은 데이터를 어떻게 사용ㅎ던지 간에 중요하기때문에 반드시 익혀두어야 겠다고 생각하였다!_! 남은 챕터도 파이팅.

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

[python_pandas 입문] 공부 # 7일차 (2)	2021.02.03
[python_pandas 입문] 공부 # 6일차 (0)	2021.01.20
[python_pandas 입문] 공부 # 4일차 (0)	2021.01.15
[python_pandas 입문] 공부 # 3일차 (0)	2021.01.10
[python_pandas 입문] 공부 # 2일차 (0)	2021.01.09

데이터 분석을 향한 성장기

[python_pandas 입문] 공부 # 5일차

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

댓글

티스토리툴바

[python_pandas 입문] 공부 # 5일차

'Python > python_pandas 입문 [책]' 카테고리의 다른 글

관련글

댓글

티스토리툴바