본문 바로가기
통계/회귀분석

[Anscombe's quartet]

by happy_bigdata 2021. 10. 11.

앤스콤 4분할 그래프

 -> 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해

     만든 그래프 

 -> 평균. 분산. 등 수칫값, 상관관계, 회귀선이 같은 4개의 그룹

 -> 데이터 자체가 같다는 착각을 하기 쉽지만 그래프를 그리면 다르다는 것을

     확인할 수 있음.

 

# 앤스콤 데이터 집합 불러오기
import notebook as notebook
import seaborn as sns
import matplotlib.pyplot as plt

anscombe = sns.load_dataset("anscombe")
print(anscombe)
print(type(anscombe))

# 그룹별 데이터 추출
dataset_1 = anscombe[anscombe['dataset']=='I']
dataset_2 = anscombe[anscombe['dataset']=='II']
dataset_3 = anscombe[anscombe['dataset']=='III']
dataset_4 = anscombe[anscombe['dataset']=='IV']

# 기본틀 만들기
fig = plt.figure()

# 격자 그리기
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2 ,3)
axes4 = fig.add_subplot(2, 2, 4)

# 그래프 채우기
axes1.plot(dataset_1['x'], dataset_1['y'], 'o')
axes2.plot(dataset_2['x'], dataset_2['y'], 'o')
axes3.plot(dataset_3['x'], dataset_3['y'], 'o')
axes4.plot(dataset_4['x'], dataset_4['y'], 'o')

# 소제목 달기
axes1.set_title("dataset_1")
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

# 제목 달기
fig.subtitle('Anscombe Data')

#레이아웃 조절
fig.tight_layout

fig

 

Anscombe's quartet

댓글