제 본전공은 경영, 복수전공으로 빅데이터분석학을 공부하고 있습니다
암튼 전공자 분들에 비해서 통계 및 컴퓨터에 대한 지식이 부족하기에 비전공자라고 이름을 붙였습니다.
'복수전공을 하고 있는데 뭐가 비전공자냐???' 라고 하신다면 할 말은 없지만
그래도 데이터 공모전에 관심을 가지시는 분들이라면 전공 관련 지식의 하한선이 저라고 생각했기에..
네 머 그렇습니다
두둥
끝나고 한~~참이 지나서야 올려보는 공모전 후기
사실 이런 회고록은 처음이라 어떻게 써야할지 고민이긴 하지만 암튼 시작해보도록 하겠습니다
.
올해 신빅해 공지가 뜨자마자 이건 참여해봐야겠다, 라는 생각이 들었다
일단 데이터 쪽으로 진로를 생각하고 있기도 하고, 지금까지 배운 이것저것 데이터 분석 기법들을 내가 써볼 방법이 없나? 활용할 수 있는 방법이 없나? 라는 생각에 조금 불안해지기도 했다
결국 데이터 분야는 지금까지의 자료들을 답습하는 것에서 그치는 게 아니라 새로운 결과물을 창출해내야 하는 분야인데, 아직까지 내가 만들어낸 결과물이 없다는 사실이 아쉬웠다
그래서 일단 한번 해보자! 라는 마음으로 도전한 신한금융그룹 빅데이터 해커톤 대회, 신빅해!
개막식을 들어야 주제를 자세히 알 수 있음,,
작년 제1회 신빅해 신한라이프 부문에서 최우수상 탄 오빠가 무려 아이콘 ㄷㄷ
그래서 도움을 많이 요청했었다..!
근데 작년보다 훨씬 일정이 타이트 해짐 ㅜㅜ
작년에는 과제 수행도 한 10일인가? 그렇고 발표까지도 시간이 좀 있었는데 올해는 과제 수행 5일, 결선 진출 발표 다음날이 발표날,,, 아니 일정이 너무한거 아닌가여???ㅜㅠㅠㅜㅠㅠㅠㅠㅜㅠㅠㅜ
암튼 셋이서 시작하게 되었습니다~~
대회 주제 선정 |
1004 개막식에서 발표된 신한카드의 대회 주제는 이렇습니다!
새로운 고객 경험을 위한 금융 신상품 및 서비스 기획...!
진짜 이게 뭘 바라는걸까,, 주제 해석하는 것만 한참이 걸렸음 ㅜㅜㅜ
그리고 데이터를 받고 이제 분석을 시작해야 하는데,
이런 클라우드 서버 어쩌구를 처음 써보는 사람들,, 아니 애초에 데이터 공모전이 처음인 사람들,,,
주피터 접속부터가 난관이었다 ㅋㅋㅋㅋㅋㅋ
막 뭐 X shell을 까니 마니 명령 프롬프트 어쩌구 이게 아니니 어쩌구 하면서 개막식 듣고 - 다변량 수업 듣고 - 비즈니스 애널리틱스 갔다가 - 대회 깔짝이고 - 발레 갔다가 - 밤 11시가 되어서야 서버 접속에 성공했다...
ㅋㅋㅋㅋ
암튼 이제 데이터를 불러와서 한 번 확인해볼까 하는데 너무나도 많은 열과,,, pk는 무슨 뜻이며,, 우리는 무슨 데이터를 써야 하며,, 어쩌구,,,, 데이터를 손도 대지 못하고 어버버 하고 있었다
그래서 우선 우리는 신한카드 부문에 진출하였으니, 카드 데이터만 이용하자! 하고 필터링을 거쳤다
와중에 결측치 있어서 요약치 확인 못하길래 그거부터 찾아줌 ;;;;
암튼 여러분 데이터 전처리는 아주 중요합니다,, 예,,,
그래서 데이터를 어떻게 써볼까, 어떻게 정리를 해서 어떻게 활용을 해볼까, 고민만 목요일까지 했던 것 같다
진행 타임라인 |
일단 작성해본 5일 간의 타임라인...
.
크게 해야 할 일은 1. 데이터 분석 2. 신사업 아이디어 제안
주어진 데이터 중 카드 데이터의 구성은
1) pk1~4 : 사용연월, 성별, 나이, 지역 으로, 2개월 단위로 총 1년치의 데이터를 제공 받았다
나이는 20,30,40,50,60,70대 초,후로 나뉘었으며, 카드데이터의 경우 70대의 데이터는 없었다
지역은 서울, 경기, 광주, 대구, 대전, 부산, 울산, 인천으로 총 8개의 지표가 있었다
심지어 행정동 코드로 들어있어서 다시 맵핑함;;;
2) 카드 소비 데이터
카드 소비 데이터는 크게 평균 소비 금액, 평균 소비 횟수, 평균 소비 비율로 구성되어 있었다.
이 중 비율은 0에 가까운 값이 많고 산출 방법을 구체적으로 알 수 없어 우리가 효과적으로 쓰기 어려울 것이라고 생각해 제외했다
물론 주어진 데이터는 가공된 형태로, 해당 연월, 해당 성별, 해당 나이대, 해당 지역에서 사용된 카드 소비에 대한 평균으로 이를 우리가 마음대로 사용할 수 있을까? 가 고민이었지만(평균의 평균 오류), N이 워낙 큰 데이터다 보니 정확성은 몰라도 대표성은 가질 수 있다고 생각하여 평균 데이터들을 활용했다
카드데이터는 업종을 엄청 세세하게 나눠 데이터를 제공해주었고,, 이는 솔직히 말하자면 독이었다
아니 누가 업종을,, 이렇게 많이,, 아니,,,, 엉엉엉
그래서 결국 산업표준분류 + 각 업종별 서비스 특징을 반영해서 우리가 재분류하였다
요렇게!
심지어 m으로 끝나면 다 평균이라서 횟수인지 금액인지 엑셀에서 눈 빠져가면서 확인해야했음
이 기간 동안 블루라이트 차단 안경 야무지게 활용했다,,,
여기까지가 전처리...!
그리고 우리가 어떤 분석을 해서 어떤 아이디어를 낼 수 있을지를 금요일까지 고민했다
우리가 내린 진행방법은 죽이 되든 밥이 되든 일단 모든 분석을 돌리고, 결과를 확인해보자! ㅋㅋㅋㅋ
그렇게 다양한 모델을 도전하고 코드를 짜고 수행해보았습니다 허허
우리가 사용한 모델은
1. RFM
2. 주성분 분석 및 군집 분석
3. XG Boosting & Cat Boost
먼저 카드는 고객 등급별로 다양한 상품 및 혜택이 있기 때문에 이를 참고하여 고객 집단을 세분화하고 등급에 따른 특성을 분석해보자! 라는 생각으로 RFM 방식을 참고하여 고객 등급을 분류하였다
R을 제외한 이유는 R은 얼마나 최근에 소비를 했느냐, 에 대한 지표로 고객 개개인에 대한 데이터가 있을 때 유용한 지표이다. 하지만 우리가 받은 데이터는 고객 한 명이 얼마나 최근에 소비를 했느냐 를 확인할 수는 없기에 이를 제외하고 빈도와 금액(딱 우리한테 있는 데이터!!!!)를 활용하여 고객의 등급을 세분화하였다
이에 따라 기존 신한카드 등급처럼 나누고, 이를 이용해서 군집분석을 시행했다
군집 분석에 앞서 변수가 너무 많아 이를 대표할 수 있는 주성분을 뽑아냈고, 주성분 10개로 80%가 설명되기에 이를 통해 군집분석을 시행했다
군집분석은 내가 했던 분석인데, 군집을 나눠서 시각화해서 살펴보면 4개보다 적을 때는 분리가 거의 안 되는 모습을 보였고, 5,6개일 때는 아름답지 않게 분류가 되어서 고민이 엄청 많았다
각 군집별로 집단의 크기가 균일하지 않았고, 시각화했을 때 그렇게 명확하게 분류가 되었는가? 라고 한다면 그에 대해서도 확실하게 답을 할 수가 없었다
결국 군집 4개가 가장 적절하다고 판단하여 4개 군집으로 분류하였다
각 군집의 소비 특성을 먼저 간단하게 파악한 후, 등급 분류 모델에 대한 예측 정확도를 측정했다
다행히도 두 모델 모두 높은 정확도를 보여 이를 활용해서 등급 분류가 가능하다는 결론을 얻었다
지금까지의 분석이 유기적으로 연결되어 보인다면 너무나도 다행,,,
왜냐면 이 분석은 우리 3명이 각각 하나씩 맡아서 일단 해보자! 하고 토요일 낮에 돌린거였움,,,ㅋㅋㅋㅋ
그리고 이걸 연결해서 이어 붙여서 우리의 결론을 내자, 라는 생각이었다
.
이후 등급과 군집 사이의 연결성을 파악하고 등급과 군집을 활용해 고객을 세분화하고 인구학적 통계, 각 소비 패턴까지 활용해 4개의 페르소나를 만들었다
이 작업을 일요일 낮에 함,,ㅋㅎㅎㅋㅎㅎㅎ
일요일 6시 제출인데,,, 엉엉엉
그리고 오후에는 열심히 분업을 했다
00이는 앞부분 피피티를 만들고 나는 서비스 제안하고 00이는 서비스 제안한거 시각화 하고
그렇게 우리가 제안하는 신사업 아이디어는 바로 신한 플레이 앱을 활용한 앱 활성화 서비스, 소빙고!!
나는 카드사에서 고객경험을 중시하는 이유가 뭘까, 를 계속 집중하고 고민했다
고객 경험이 만들어지기 위해서는 소비가 이루어져야 하고, 카드와 연관되기 위해서는 이 소비와 연관된 무엇인가가 필요하지 않을까? 라는 생각이 계속 들었다
지금 당장 상품을 제안하기에는 현재 신한카드가 낸 카드 상품이 너무 많아 새로운 영역을 발굴해내기에는 무리가 있다고 판단했다 (+ 카드 상품 관련 지식 부족 이슈 ;;;)
그래서 우리는 차라리 앱을 활용하는 쪽으로 새롭게 파고 들어보자! 라고 했고, 고객 경험 증진을 위해 이를 보다 효과적으로 느낄 수 있는 카드 앱을 사용하는 방향으로 아이디어를 제안했다
이때, 카드 이용 실적에 대한 부담이 가장 고객 경험에 부정적인 영향을 끼치는 요인이라고 생각했고, 이를 뒷받침하는 통계 결과도 있었다
이걸 부담이 아니라 재미 포인트로 변환시키자! 라는게 우리의 아이디어의 출발이었다
우리가 분석한 군집별 소비 패턴을 바탕으로 개별화된 소빙고 판을 제공하여 이를 채워서 소비 실적도 채우고,
혜택도 추가적으로 얻는 방안이다!
이렇게 각 페르소나 별로 카드 소비 금액, 횟수를 바탕으로 빙고판을 제공하였고
해당 빙고판의 내용에 맞는 소비가 발생할 때마다 빙고판을 채울 수 있는 형식이다
횟수보다 금액이 중요한 카테고리는 최소 이용 금액을 통해서, 금액보다 횟수가 많은 카테고리는 이용 횟수에 따라 빙고판을 채울 수 있다.
오타, 피피티 정렬 안 맞음, 어쩌구를 다 포함해서 겨우 5시 59분에 딱 제출하고 각자 일단 쉬고 생각하자는 마인드,,,,
암튼 제출했으니 우린 잘했다 하고 반은 기대, 반은 포기 상태로 예선 결과를 기다리고 있었다
근데 댑악
ㄹㅈㄷ
갑자기 결선 진출 ㄷㄷㄷㄷㄷ
암튼 모든 일정을 취소하고 숙명여대로 뛰어갔습니다 허허
근데 전날 알려주는거 너무한거 아닌가여
나 사조사 시험도 취소하고 갔잖아 (라기엔 이미 필답부터 안 감)
발표, Q&A 준비 |
발표 첫번째 실화냐,,
알고보니 마감 시간에 가깝게 제출한 순서였음 ㅋㅋㅋ
59분에 냈으니 당연히 첫번째~~~
근데 당일에 가보니 첫번째인게 오히려 좋았다 ㅎㅅㅎ
당일에 한 50분쯤 도착하자는 마인드로 갔는데, 000 늦잠 잠;;;;
나랑 00이랑 발 동동 구르면서 먼저 숙대로 갔다
휴 00아 나 조금 화날 뻔 했어 ^~^
발표는 사다리로 00이가 하게 됐고, 10분 제한이 있어서 최대한 컴팩트하게 전달했다
근데 좀 많이 컴팩트 했는지 7분만에 발표가 끝났고, 그렇게 우리만 q&a 8분함,,,,
예상했던 큐앤에이는 이렇게 준비했다
이 외에 나오면,, 알아서 임기응변 파이팅,,, 했었는데
다행히 크게 어긋나는 질문은 없었던 것 같다
근데 첫 질문이 너무 크리티컬해서 겁나 당황하면서 답변함
질문이 1,2개 정도 더 있었는데 기억이 안 난다 ㅇㅅㅇ
일단 큐앤에이는 내가 대부분 답을 했다 너무 당황해서 첫번째 질문 답은 진짜 횡설수설 했다
- pk에 따라 군집이 분류되는 특성이 두드러지게 보였다. 그 이상으로 군집을 만들어도 크게 유의미한 분류가 아니라고 판단했고, 가장 명확하게 나눠진 것이 4개였다. 아마 저희의 분석에 대한 역량 부족 + 데이터 pk 에 따른 분류가 너무 명확함 때문이지 않나, 라고 답했던 것 같음,,,
rfm에서 r을 제외한 이유는 준비했던 질문이라 수월하게 답변했다
여기서 이용비율 데이터를 쓰지 않은 이유도 물어봤는데, 분자 분모를 명확히 파악할 수 없어 우리가 생각한 내용을 대표할 수 없다고 응답했던 것 같다 근데 여기서 오히려 이용비율로 우리의 내용에서 부족한 점을 채울 수 있는 부분이 있어 그 점에 대한 피드백도 감사히 받았다
등급은 어떻게 나눴냐고 해서 이건 승갑이가 답함!
마지막으로 왜 등급별이 아니라 군집별로 서비스를 제안했냐는 질문도 어느 정도 생각은 했던 터라 잘 답변했다
- 등급과 군집 간의 상관관계 분석 및 독립성 검정 시행 결과 두 개의 분류기준에 연관성이 높다는 사실을 알 수 있었고, 이에 따라 등급별 군집 분포를 확인했다. 소비패턴은 등급보다는 군집이 페르소나 등 보다 명확한 차이점을 보였기에 군집별로 다른 소비패턴에 대한 서비스를 제안하였다
대충 이렇게 답한 듯...?
암튼 머 큐앤에이에서 아 이건 못했다, 아쉬웠다, 싶은 부분은 없었다
.
첫팀이라 우리 순서 끝나고는 이제 여유롭게 다른 팀 구경,,,
딴 짓도 하고, 다른 팀 발표도 들으면서 내가 느낀 점..!
- 일단 신한카드 계열에서는 우리팀 제외 7개의 팀이 모두 카드 상품을 제안했다!
어떻게 이용할 시 어떤 혜택을 주는 카드 상품을 신상품 아이디어로 가져와 제안하였고, 우리만 정말 독특하게 신한 플레이 앱 내의 서비스를 제안한 상황,,,
이게 진짜 모 아니면 도,, 였다 어떻게 보면 '독특하고 참신한 아이디어'였을 수도 있고, 그냥 우리가 주제 해석을 잘못한 거 일수도,,, 그래서 걱정이 많았지만 나는 우리팀 아이디어에 어느정도 자신감이 있었다
(사유. 내가 아이디어 초안 냄)
- 우리는 EDA에서 크게 얻은 점은 없,,, 그니까 우리의 분석에 있어 EDA가 크게 중요하지 않았다 그리고 EDA를 발표하기에는 우리의 분석 툴이 너무 많아 그냥 데이터 개요 파악 및 방향성 파악에만 이용하고 발표에는 포함하지 않았는데, 대부분의 팀들이 EDA를 엄청 엄청 열심히 해서 시각화를 잘해왔다
그리고 EDA를 통한 인사이트 추출? 이 대부분이었던 느낌. 뭔가 분석 기법이라든지 이런 부분에 있어서는 군집 분석, 의사결정 트리 등을 이용한 팀도 있었으나 우리처럼 다양하게 결합한 팀은 없는 것 같았다
- 근데 진짜 신기한게 다들 카드 아이디어가 하나같이 새로웠다
우리는 더이상 뚫을 수 있는 카드 혜택이나 시장이 없다고 생각했는데, 그 안에서 어떻게 또 캐치를 해서 카드 상품으로 가져온게 너무 신기했다
오전에 각 계열별로 발표를 하고, 점심으로 샌드위치를 줬다
근데 받자마자 딱 느낌 이거 3시 되면 배고프다 ;;;ㅋㅋㅋㅋㅋ
암튼 머 맛있게 먹고 사진도 찍고 오후에 강연도 들음
금융 시장을 바라볼 때 데이터가 어떻게 쓰여야 하는가에 대한 강연이었는데 도움되는 내용이라 유익했음!!
강제로 맨앞자리 앉아서 강사님이랑 자꾸 눈 마주쳐서 조금 부담스러웠다
그리고 대망의 시상식 두둥
.
사실 총평 얘기하실 때 우리 발표 관련 얘기가 그냥 첨언 느낌으로만 들어있어서 아 우리 상 못 탔나보다,,, 하고 있었움
근데 우수상 신한카드에서 첫번째로 불린 것...!!!
꺄아아아ㅏㅏ아아아아아악 대박이당 ㅎㅅㅎ
네 이 내용으로 우수상을 수상하였습니다!!!! 댑악!!!!!
듀듕!!!
너무 신나ㅜㅜ
첫 데이터 공모전 도전에서 수상까지 하게 되어서 너무 뿌듯하고,,
그래도 지금까지 열심히 코딩하고 통계하고 하면서 굴렀던게 아무런 의미 없는 몸부림은 아니었구나 싶은 순간이었다
그치 열심히 하면 어느날 결실을 맺기 마련이다!
이번 대회를 하면서 생각한 점 |
앞으로 데이터 직무에 종사하게 된다면 내가 접할 데이터는 이번 대회 때 마주한 데이터와 같이 말 그대로 정말 '빅데이터' 일 것이다. 통계적 지식을 기초로 삼아 전처리, 요약치 확인 등 데이터를 다루는 것을 두려워 하지말자. 아무튼 뭐든 확인해보자
내가 즐거워하는 과정은 데이터를 분석하고 모델을 만들어 이를 검증하는 과정인가, 데이터를 기반으로 인사이트를 도출하고 이를 바탕으로 아이디어를 제시하는 과정인가, 이에 대한 고민이 중요할 것이다
내가 분석한 기법, 툴이 어떤 데이터와 어떤 통계 내용을 가지고 어떤 결과를 도출하는 것인지 분석에 대한 공부를 멈추지 말자. 이는 내가 한 분석을 뒷받침해주는 중요한 근거이다
복전하길 잘했다? 사실 지금까지는 공부하면서 대체 이 내용들이 어디에 쓰이는건지 알지 못해 괴로웠고 재미가 없었다 그나마 처음 재미를 느낀 내용이 딥러닝? 근데 이렇게 대회에서 직접 활용하다보니 다 어떻게든 쓰인다는 것을 깨달았다 지금 하는 수학적인 내용이나 CS적인 과목도 좀 더 재밌게 느끼고 있고! 앞으로 공부하는 방향성을 위해서라도 이런 대회를 꾸준히 도전해봐야겠다
앞의 문장과 이어지는 내용이지만, 도전하자 두려워하지말고 일단 해보자 죽이 되는 밥이 되든 내가 만든 결과물 이라는 유의미한 활동으로 남을 수 밖에 없다
뭐 대충 이정도...?
4-1이 끝나가는 시점에서 갑작스럽게 시작한 고민.. 으로 쓰게 된 후기이지만
아마 이 대회는 내년에도 하겠죠 제가 이번 대회를 준비하면서 힘들었던 건 그 누구도 '신한카드'의 후기를 올리지 않았다는 점입니다.. 참여자가 적었던건지 암튼...
누구든지 신빅해에 관심 있는 사람이라면 와서 참고하세요!!
이상 경영학부생의 데이터 공모전 후기 끝!
인터뷰 - yyyyye님
https://blog.naver.com/miella10/223276072954
🖱️공모전 오픈 카톡방 입장하기 (비번: 1004)
함께 보면 좋을 콘텐츠 |
||||||||||||||||
🧳대학생이라면 해외여행 보내주는 활동LIST | ||||||||||||||||
🏫학기 병행 가능! 학교다니면서 스펙 쌓아요! 쉬운 활동list | ||||||||||||||||
🎟실무경험 + 인턴 기회 주는 취준생 추천 활동.zip | ||||||||||||||||
📣K패스 카드 비교 2026|정액패스 개편 내용과 환급형 차이 | ||||||||||||||||
👭학기중에도 병행 가능! 신규 대기업 대외활동 모음 |
└삼성전자 면접관, 현대자동차 인사담당자 등 원하는 멘토를 선택해 답변을 받을 수 있습니다 😎
해당 게시글은 링커리어 회원님들이 남겨주신 소중한 후기입니다. 해당 게시글에 포함된 내용에 대한 악의적인 비방 및 비하, 욕설이 담긴 댓글을 남길 시 무통보 활동정지 및 탈퇴 처리됩니다.
본 사이트의 합격후기 및 자료들을 무단 복제, 배포하는 경우에는 저작권법 제 97조의 저작재산권침해죄에 해당하며, 저작권법에 의거 법적조치에 처해질 수 있습니다.
작성자 링커리어
신고글 [신한금융그룹] 제2회 신빅해 후기 - 비전공자의 데이터 공모전 수상 후기
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.