목록부스트코스/파이썬으로 시작하는 데이터 사이언스 4
Sangwon Coding
그래프를 그려보니 꾸준히 증가하고 있습니다. 중국, 일본, 미국, 아세안 순으로 성장하고 있습니다. 면세점 이외의 데이터는 꾸준히 성장했고, 면세점 데이터도 성장하고 있습니다. 두 부문 모두 계속 성장 중입니다. heatmap을 통해 알 수 있듯이 중국에서 구매액이 가장 많습니다. 미국과 일본에서도 구매액이 늘어나고 있습니다. 연도, 대륙 별로 같이 볼 수 있습니다. pivot table로는 분포를 보기는 어려운데 heatmap에서는 분포를 색상으로 편하게 볼 수 있습니다. 연도별 판매액을 "상품군별"로 다른 색상으로 표현해봤습니다. legend 그래프를 밖에 그리기 위해 plt.legend() 함수를 사용합니다. bbox_to_anchor를 변경하면 그래프와 범례 사이의 간격을 조절할 수 있습니다. 그..
1) 음주 여부에 따라 건강검진 수치 차이가 있을까? 음주 여부에 따른 "감마지티피"를 확인합니다. 음주 안하는 사람들의 감마지티피값이 더 뾰족하다는 것을 알 수 있습니다. 2) 신장과 허리둘레의 크기는 체중과 상관관계가 있을까? 상관계수 상관계수는 변수들 간의 관계를 알아볼 때 유용한 개념입니다. 특정 데이터에 대한 상관관계를 볼 수 있습니다. 상관계수는 -1부터 1사이로 구성되고, 0.3부터 0.7 사이면 뚜렷한 양적 선형관계, 0.7 이상이면 강한 양적 상관관계라 할 수 있습니다. 결론적으로 음주 여부에 따라 건강검진 수치가 차이가 있고, 신장과 허리둘레의 크기는 체중과 상관관계가 있습니다.
scatter plot scatter plot은 수치형 데이터가 어디 좌표에 위치하는지 출력할 때 주로 이용됩니다. 보통은 상관계수, 회귀선을 출력하는데 사용하는데 지리 데이터에서도 사용이 가능합니다. Folium map에 직관적으로 지역을 표시해보겠습니다. Folium을 사용하기 위해선 직접 Anaconda prompt에 conda install -c conda-forge folium을 입력하여 설치합니다. 계속 진행할 것인지를 묻는다면 y를 눌러서 설치하면 됩니다. 함수를 통해 마커와 팝업을 찍어낼 수 있습니다. 지도를 찍어보면 서울 외곽에 갈 수록 종합병원 수가 적다는 것을 알 수 있습니다.