Sangwon Coding
프로젝트로 배우는 데이터 사이언스 - EDA를 통해 데이터 탐색하기 본문
데이터는 지난 번 모델 기초 포스트에서 사용한 당뇨병 데이터 셋을 사용하였습니다.
subplot, distplot을 통해 모든 항목이 각각 당뇨병 결과에 영향을 끼치는지 한눈에 알아볼 수 있습니다.
이제 상관계수를 계산합니다. 대각선은 자기자신이므로 1이고, 수치에 따라 다른 색상을 볼 수 있습니다.
글루코스와 Outcome 값이 상관관계가 높은 것으로 나타납니다. 인슐린과 Outcome은 상관관계가 높지 않습니다.
'부스트코스 > 프로젝트로 배우는 데이터 사이언스' 카테고리의 다른 글
프로젝트로 배우는 데이터 사이언스 - 프로젝트 A 리뷰 결과 (0) | 2020.06.29 |
---|---|
프로젝트로 배우는 데이터 사이언스 - 모델과 파라미터 찾기 (0) | 2020.06.23 |
프로젝트로 배우는 데이터 사이언스 - 탐색한 데이터로 모델성능 개선 (0) | 2020.06.23 |
프로젝트로 배우는 데이터 사이언스 - 분류모델 기초 (0) | 2020.06.21 |
Comments