# 공부한 내용 (6장~7장)
- 누락값 확인
- 누락값 처리
- melt 메서드 처리
# 누락값
NaN, NAN, nan
# 누락값 확인
import pandas as pd
print(pd.isnull(NAN))
print(pd.notnull(NaN))
# 누락값의 개수 구하기
# 전체 개수에서 누락값이 아닌 값의 개수 빼기
num_rows = ebola.shape[0]
num_missing = num_rows - ebola.count( )
print(num_missing)
# 누락값 처리하기
# 0으로 변경
print(ebola.fillna(0).iloc[0:10, 0:5])
# 누락값이 나타나기 전의 값으로 변경
print(ebola.fillna(method='ffill').iloc[0:10, 0:5])
# 누락값이 나타난 이후의 첫번째 값으로 변경
print(ebola.fillna(method='bfill').iloc[0:10, 0:5])
# 중간값을 구한 다음 그 값으로 변경
print(ebola.interpolate( ).iloc[0:10, 0:5])
# 계산
# 누락값을 무시한 채 계산 -> skipna = True
print(ebola.Cases_Guinea.sum(skipna=True))
# 누락값을 포함해 계산 -> skipna = False
print(ebola.Cases_Guinea.sum(skipna=False))
# melt 메서드
- id_vars : 위치를 그대로 유지할 열의 이름 지정
- value_vars : 행으로 위치를 변경할 열의 이름을 지정
- var_name : value_vars로 위치를 변경한 열의 이름을 지정
- value_name : var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정
# pew 데이터
(퓨 리서치 센터에서 조사한 '미국의 소득과 종교' 데이터)
(퓨 리서치 센터 : 세계의 여론 조사, 인구 통계 등 다양한 사회과학 연구를 수행하는 곳)

pew_long = pd.melt(pew, id_vars='religion')
print(pew_long.head( )) # variable, value처럼 데이터 내 소득 정보를 행으로 이동.

pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count'
print(pew_long.head( ))

# billboard 차트 데이터
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name= 'rating'
print(billboard_long.head( ))

데이터를 다룰때 주의해야하는 누락값에 대해 학습하고 직접 변환하는 과정도 배웠다. 누락값은 데이터를 어떻게 사용ㅎ던지 간에 중요하기때문에 반드시 익혀두어야 겠다고 생각하였다!_! 남은 챕터도 파이팅.
'Python > python_pandas 입문 [책]' 카테고리의 다른 글
| [python_pandas 입문] 공부 # 7일차 (2) | 2021.02.03 |
|---|---|
| [python_pandas 입문] 공부 # 6일차 (0) | 2021.01.20 |
| [python_pandas 입문] 공부 # 4일차 (0) | 2021.01.15 |
| [python_pandas 입문] 공부 # 3일차 (0) | 2021.01.10 |
| [python_pandas 입문] 공부 # 2일차 (0) | 2021.01.09 |
댓글