Sangwon Coding

프로젝트로 배우는 데이터 사이언스 - EDA를 통해 데이터 탐색하기 본문

부스트코스/프로젝트로 배우는 데이터 사이언스

프로젝트로 배우는 데이터 사이언스 - EDA를 통해 데이터 탐색하기

SW1 2020. 6. 22. 17:17

데이터는 지난 번 모델 기초 포스트에서 사용한 당뇨병 데이터 셋을 사용하였습니다.

 

 

subplot, distplot을 통해 모든 항목이 각각 당뇨병 결과에 영향을 끼치는지 한눈에 알아볼 수 있습니다.

 

이제 상관계수를 계산합니다. 대각선은 자기자신이므로 1이고, 수치에 따라 다른 색상을 볼 수 있습니다.

 

 

글루코스와 Outcome 값이 상관관계가 높은 것으로 나타납니다. 인슐린과 Outcome은 상관관계가 높지 않습니다.

 

Comments