관리 메뉴

원남, 기록

[kaggle] Santander C.T. prediction (1) 대회 개요 본문

공부/머신러닝

[kaggle] Santander C.T. prediction (1) 대회 개요

원남 2019. 2. 27. 16:37



(1) 대회 개요 Overview


1. 소개 description


주최자 : Santander Customer Transaction Prediction

주최자의 질문 : Can you identify who will make a transaction?


  산탄데르 은행은 스페인의 산탄데르 그룹에서 운영하는 은행으로, 미국 보스턴에 본사가 있어서 미국 동부를 주요 타겟으로 여긴다. 직원 수도 만 명 가까이 되니까 규모가 큰, 말 그대로 대기업이라고 부를 수 있다. 우리나라의 제1금융권 은행도 직원을 만명 넘게 거느린다. (신한은행은 음... 만 삼천 명 가량) 직원수가 많은 만큼 이 은행에서 다루는 제품도 많다. 예/적금은 물론이고 투자, 보험, 신용카드...도 있다. 이런 큰 은행이 kaggle에서 "Customer Transaction"을 예측할 수 있는지 kaggler(캐글러)들에게 물어보고 있다. 산탄데르 은행은 지난 2016년 10월부터 12월까지 이미 kaggle에서 "Santander Product Recommendation Competition"이라는 경진대회를 개최한 적이 있기 때문에, 캐글러에게 친숙한 곳이다.


1-1. 모르는 용어 : Customer Transaction


  Customer Transaction이 뭘까? 경제 용어는 한국어로도 어려운데 영어로 말하니 뭐가 뭔지 모르겠다. 구글링한 결과 bizfluent라는 사이트에서 설명해주었다.

판매, 리스, 양도, (복권 같이 우연히 받은) 상금, 개인 자산을 처분하는 행위

According to U.S. Legal Definitions, a consumer transaction is defined as “a sale, lease, assignment, award by chance,or other disposition of an item of personal property.” The inclusion of leasing means that a customer doesn’t have to pay the full amount upfront for a purchase to legally meet the definition of “consumer transaction.” Additionally, he does not even need to directly purchase a product. As an example, when a person buys a raffle ticket it is considered by law to be a consumer transaction, whether or not he actually wins a prize.

  직접(directly) 구매하지 않아도 포함된다는 말이 있는데, 복권을 구매하였으면 당첨되지 않더라도(복권을 통해 이득을 취하지 않아도) 소비자 거래로 간주된다고 한다. 길거리에서 아이스크림을 사도, 큰 돈을 가지고 풀미수 몰빵을 해도 모두 소비자 거래(Customer Transaction)로 간주한다는 의미다. 그러니까 산탄데르 은행은 우리에게 당사의 고객들이 얼마나 소비하고 투자하는지... 즉 그들이 얼마나 돈을 소비하는지에 대해 물어보고 있다. 정확히 말하자면 산탄데르 은행이 캐글 페이지에서 남긴 마지막 문단을 인용해보겠다.

 (의역폭발) 

거래할 때 지출하는 돈의 액수와 관계없이 당사는 이 경진대회에서 "우리 고객들이 미래에 어떤 특정한 소비자거래를 실시하는지" 알아내는 것을 캐글러가 도와줄거라 믿슴다!!

In this challenge, we invite Kagglers to help us identify which customers will make a specific transaction in the future, irrespective of the amount of money transacted.

   캐글을 보면서 항상 느끼는거지만 얘네는 왜이렇게 우리들을 힘들게 할까^^?...


2. 평가방법 Evaluation


  경진대회마다 평가방법은 천차만별이다. MAP(Mean Average Precision)이 될 수도 있고, 다중 클래스 정확률(Multiclass Accuracy)도 있다. 이번 경진대회에선 그래프상에서 ROC 곡선 아래에 있는 넓이가 곧 점수다. 많을수록 좋은 것이고, 내가 손으로 쓴 것을 봐보자. ROC curve는 정보가 많아서 구글 말고 네이버/다음에서 검색해도 금방 이해할 수 있다.



3. 상금 Prices


1st Place - $ 25,000

2nd Place - $ 17,000

3rd Place - $ 10,000

4th Place - $ 8,000

5th Place - $ 5,000


  상위 5등까지에게만 상금이 주어지고, 이번 경진대회는 kernel을 잘쓴다고 돈을 주지는 않는다. 다른 곳에선 R로 짠 사람끼리만 따로 돈을 주는 조건도 있엇다. 이런 것을 노리는 것도 쏠쏠한 재미인 것을... 잘하는 사람만 보는 산탄데르 은행 흑흑


4. 마감 기한 Deadline


  참가하기 : 2019년 04월 03일

  팀을 짜거나 참여한다고 결정 : 2019년 04월 03일April 3, 2019 - Entry deadline. You must accept the competition rules before this date in order to compete.

  코드 제출 : 2019년 04월 10일


  얼른 분석해보자굿