목록전체 글 106
Sangwon Coding
프로젝트 A. 건강검진 정보로 음주여부 분류하기 국민건강보험 건강검진 정보는? 건강검진정보란 국민건강보험의 직장가입자와 40세 이상의 피부양자, 세대주인 지역가입자와 40세 이상의 지역가입자의 일반건강검진 결과와 이들 일반건강검진 대상자 중에 만40세와 만66세에 도달한 이들이 받게 되는 생애전환기건강진단 수검이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 검진내역(신장, 체중, 총콜레스테롤, 혈색소 등)으로 구성된 개방데이터 중 만개의 데이터를 임의로 추출했습니다. 분류로 음주여부 예측하기 건강검진 센터에서 음주여부에 응답을 하지 않는 사람이 있다고 가정합니다. 검진 데이터를 바탕으로 음주여부를 예측한다면 건강한 생활습관을 가이드하는데 도움이 될 것 입니다. 분..
1. 핀테크 비즈니스 모델 다양한 금융사업 영역에 있어 비즈니스 모델이 발굴되고 있으며, 최근에는 암호화폐를 활용하는 가상 자본 시장에 급관심이 쏠리고 있다. 빅데이터는 가치 평가 및 리스크 회피, 상품 추천 등에 적극적으로 활용 2. 간편결제 서비스 핀테크 비즈니스 모델의 대표적인 사례로 간편결제 서비스는 사용자의 행태 빅데이터 수집을 위해 대중화 되어 있다. 최근에는 서울시의 제로페이, 지역페이 등과 같이 공공 분야에서의 진출도 있어 경쟁이 심해졌다. 3. 간편송금 서비스 - 토스 사례 핀테크 기업 비바리퍼블리카의 간편송금 서비스인 토스의 경우 2,200만 건 이상 다운로드되었다. 누적 송금액이 33조 원을 넘으며, 현재는 계좌/카드 등 조회 및 각종 금융상품 등을 판매중이다. 4. 개인금융 서비스 ..
1. 지급결제의 개념 '지급결제'란 현금 등 화폐적 가치이전을 통해 경제주체간 각종 경제활동에 따라 발생한 채권 채무관계를 해소하기 위해 이루어지는 처리과정을 의미 현금의 경우는 지급과 결제가 동시에 마무리되지만, 비현금 지급수단 (어음, 수표, 계좌이체, 신용카드 등)의 경우는 지급 -> 청산 -> 결제 의 처리과정을 거쳐야 함 지급(payment)이란 개인이나 기업 등이 실물 및 금융거래에 다른 금전 채권 채무 관계를 해소하기 위해 현금 또는 수표 등 지급수단을 주고 받는 행위를 의미 청산(clearing)이란 어음, 수표 등 지급수단을 확인하고 금융기관에 지급해야 할 차액의 산출을 의미 결제(settlement)이란 청산과정을 거쳐 확정된 금액을 금융기관이 자금이체 등을 통해 상호 주고받는 행위를 ..
1. 금융기관의 의의 - 자금수요와 공급조절을 담당하기 위하여 조직적, 규칙적으로 운영하는 기관 - 불특정 다수로부터 예금 등을 받기 때문에 금융기관이 도산할 경우 많은 국민이 상당한 피해를 입을 수 있다. 따라서 정부의 규제를 받는다. 2. 일반은행이란? 은행법에 의해 설립되고 한국은행법과 은행법의 규제를 받는 금융기관으로서 예금은행 또는 상업은행이라고 불려진다. (ex 우리은행, KB국민은행, 카카오뱅크 등) 일반은행의 주요 업무 4가지 1. 고유 업무 (예금, 대출) 2. 환업무 (내국환, 외국환) 3. 부수업무 (보호예수, 대리업무, 지급보증, 방카슈랑스) 4. 기타업무 (신탁업무, 신용카드업무, 펀드판매) 3. 4차 산업혁명과 금융빅뱅 8대 기술 현재 금융산업은 모바일 결제시스템과 가상화폐의 도..
책 소개 서울대 가지 않아도 들을 수 있는 명강의, ‘서가명강’ 삶을 바꾸고 미래를 혁신하는 빅데이터의 모든 것 대한민국 최고의 명품 강의를 책으로 만난다! 현직 서울대 교수진의 강의를 엄선한 ‘서가명강(서울대 가지 않아도 들을 수 있는 명강의)’ 시리즈의 여섯 번째 책이 출간됐다. 역사, 철학, 과학, 의학, 예술 등 각 분야 최고의 서울대 교수진들의 명강의를 책으로 옮긴 서가명강 시리즈는 독자들에게 지식의 확장과 배움의 기쁨을 선사하고 있다. 『세상을 읽는 새로운 언어, 빅데이터』는 대한민국 최고의 빅데이터 전문가인 서울대 산업공학과 조성준 교수가 인공지능 시대의 새로운 자원이자 화폐라 불리는 빅데이터에 대해 쓴 대중교양서다. 빅데이터의 정확한 실체와 위상은 모를지라도 누구나 ‘데이터’의 힘을 느끼고..
1. Random Forest 트리를 앙상블 기법(여러 기법을 섞어서 사용하는 기법)에 사용할 수 있습니다. Random Forest는 샘플링하여 여러 데이터를 만들며, 이 샘플은 부트스트랩이라고 합니다. 이를 통해 오버피팅을 방지할 수 있습니다. 2. Gradient Boosting boosting은 트리에 가중치를 부여합니다. RamdomSearchCV를 사용해서 여러 알고리즘 속에 최적의 하이퍼 파라미터를 찾아봅니다. 맨 위에서부터 차례대로 높은 정확도를 가집니다.
여러가지의 모델성능 개선 방법을 알 수 있었습니다. 1. Feature Engineering 2. One Hot Encoding 3. 결측치 값 대체하기(평균값, 중앙값) 4. 수치형 변수 정규분포 형태로 만들기(log) 5. 상관분석을 통해 파생변수 만들기 6. 이상치 다루기 7. Feature Scaling 최종적으로는 71%였던 정확도가 90%까지 올랐습니다. 이 개선한 데이터 셋을 다시 CSV파일로 저장하였습니다.
https://github.com/NohSangwon/KIT-FactCheck-Project NohSangwon/KIT-FactCheck-Project 가짜 뉴스를 판별하기 위한 뉴스 기사 신뢰도 분석 웹 사이트. Contribute to NohSangwon/KIT-FactCheck-Project development by creating an account on GitHub. github.com