역대 수상작

[데이콘 관광데이터 경진대회] 비전공자 수상 후기

상세페이지-메뉴
https://community.linkareer.com/strategy/2319742

🖱️기획/아이디어 공모전 찾으러 가기

🖱️현재 모집중인 공모전 보러가기

🖱️역대 수상작 보러 가기

🖱️공모전 팀원 구하러 가기

작년 9월, 10월에 데이콘에서 주최하는 관광데이터 분류 경진대회에서 최종 순위 2등으로 수상에 성공했다.

비록 시간이 조금 지났지만 그때의 경험을 글로 작성해도 좋을 것 같아서 이번 글을 시작하게 되었다.

시간의 서사대로 차근차근 수상 후기를 풀어보겠다.

데이콘 관광데이터 경진대회에 참하게 된 계기

비전공자로서 AI 공부를 시작한 것은 작년 7월이었다.

머신러닝부터 시작해서 컴퓨터 비전, 객체 인식, 자연어 처리, 음성 인식 순으로 기본기를 공부하고

배운것들을 점검하기 위해 알아보다가 캐글 도전을 먼저 고민하였다.

하지만 캐글은 고인물들이 너무 많다는 썰이 있어서...

비전공자인 필자가 하기에는 조금 진입 장벽인 높다고 생각했다.

배운 것들을 바탕으로 해볼 만한 콘테스트 플랫폼을 찾다가

흔히 국내판 캐글이라고 평가되는 데이콘에 도전하기로 마음을 먹었다.

마침 데이콘에서는 관광데이터 경진대회가 열리고 있었는데,

관광지의 이미지와 텍스트 설명을 바탕으로 어떤 카테고리의 관광지인지 분류하는 대회였기에,

TF-IDF를 통한 머신러닝과 딥러닝 CV 모델, NLP 모델을 다뤄보면서

많은 공부가 될 것이라고 생각했기에 옳다구나 하고 참가하게 되었다.

참고로 참가가 정말 쉽다! 그냥 회원가입 후 원하는 대회로 들어가면 오른쪽 상단 쪽에 참가하기가 있다.

클릭하면 끝난다ㅎㅎ

대회 초반, 머신러닝 & CV 학습

처음에는 높은 순위가 목적이 아니었고, 배웠던 것들을 직접 적용하면서 활용해 보는 것이었기 때문에

바로 최적의 모델을 적용하기보다는 관광지에 대한 텍스트 설명을 바탕으로 여러 ML Model들을 돌려보았다. SVM, Random-Forest, XGBoost 등을 돌려보고,

Grid-Search를 통해 최적의 하이퍼 파라미터 튜닝을 찾았고,

Voting Classify를 통해 Soft & Hard voting을 통해 점수를 올리려고 노력했다.

이때까지만 해도 순위가 낮았다.

ML만 가지고도 절반 안으로는 들어가긴 했지만 그래도 높다고 할 만한 순위는 아니었다.

ML을 어느 정도 해보고 난 뒤 이미지 학습을 시작했다.

처음에는 Resnet50을 이용해서 전이학습을 하다가,

이후에는 Sota로 분류되는 크기가 큰 모델들을 사용해 봤다.

Densnet201이나 EfficientNet B6, regnet, VIT 등을 적용해 봤는데

어떠한 것을 사용해도 높은 점수가 나오지 않았다.

하면서 기본적으로 이 task가 분류해야하는 label의 수가 총 128개였기 때문에

비슷한 장면이 많은 이미지로는 구분하는데 한계가 있다고 판단을 내렸다.

중반, KLUE-RoBERTa large를 통한 순위 급상승

머신러닝, CV를 다뤄봤기 때문에 다음으로는 NLP 학습을 시작했다.

처음에는 LSTM과 GRU를 활용해 직접 설계를 해봤고

어느 정도 성능을 확인한 뒤에는 사전학습된 버트 계열의 모델을 사용했다.

KoBert를 사용했을 때, 의미 있는 상승을 맛볼 수 있었고,

KLUE-RoBERTa large를 사용했을 때 10위권 안쪽으로까지 진입하게 되었다.

처음 시작했을때까지만 해도 상위 10퍼 정도만 해도 잘한 게 아닐까 생각했었는데

10위 안까지 들어오고 나니 충분히 수상권 안까지도 갈 수 있겠다는 자신감이 생겼고, 기대감도 생겼다.

후반, 성능 향상을 위한 다양한 시도 및 앙상블


이때부터, 어떻게 하면 성능을 향상할 수 있을까 정말 많이 고민해 보고 많이 시도해 봤다.

가설을 세우고 시도해보고 실패하면 또 다시 가설을 세워서 시도해 보고 무한 반복이었다.

같이 참가했던 친구와 나누는 대화는 어떻게 하면 더 올라갈 수 있을지에 대한 것이었다.

특히 데이터를 최대한 분석하고, 전처리 쪽에서 다양한 시도들을 적용해 봤는데

이를 통해 조금씩 순위를 끌어올릴 수 있었다.

주어진 데이터에 적합한 텍스트 어그멘테이션 법도 고민해 보고

노이즈를 어떻게 처리할지에 대해서도 정말 많은 고민들을 했던 것 같다.

그리고 그간 학습했던 ML, CV, NLP의 결과를 적절하게 앙상블(하드보팅) 했더니

어느새 수상권까지 들어가게 되었다.

여기에 데이콘에 멀티모달 코드를 공유해 주신 분이 계셔서

그 코드를 참고해서 멀티모달까지 함께 보팅 했더니 최고 순위 1위까지 찍어봤다ㅎㅎ

비록 마지막에 다른 분께 밀려서 최종 2등을 기록했지만 충분히 만족스러운 결과였고,

너무나도 많은 공부가 된 좋은 경험이었다.

후기를 작성하면서도 당시를 생각하면 너무 즐거웠던 것 같다.

개인적으로 딥러닝을 공부하고 있다면 데이콘 플랫폼에서 공부해 보는 것을 권유하고 싶다.

우선 소위 한국판 캐글이기에 접근성이 너무 좋고,

다양한 콘테스트들이 열리기 때문에 원하는 TASK의 콘테스트를 참가할 수 있다.

그리고 운영하시는 직원분들이나 다른 유저분들도 친절하셔서

코드도 많이 공유해 주시고 함께 성장해나가는 계기가 될 수 있는 것 같다.

그리고 무엇보다 재밌다!!

그냥 단순히 AI를 공부하는 것보다 바로바로 결과가 나오는 테스트에 참가하는 것은

동기부여 자체가 다른 것 같다!!

(혹시라도 이 글을 읽고 계신 분이라면 꼭 데이콘에 도전해 보세요!)

그리고, 비전공자라고 기죽을 필요도 전혀 없는 것 같다.

깊은 수준의 수학적인 계산까지는 이해하지 못하더라도 어떤 식으로 동작하는지,

그리고 어떠한 방식으로 접근하면 좀더 개선할 수 있는지 논리력을 조금씩 늘려나간다면

필자처럼 데이콘에서 충분히 좋은 성과를 거둘 수 있지 않을까 싶다.

🖱️공모전 오픈 카톡방 입장하기 (비번: 1004)

🖱️공모전 역대 수상작 보러가기

🖱️현재 진행 중인 공모전 공고 보러가기

🖱️공모전 리스트 더보기

해당 게시글은 링커리어 회원님들이 남겨주신 소중한 후기입니다. 해당 게시글에 포함된 내용에 대한 악의적인 비방 및 비하, 욕설이 담긴 댓글을 남길 시 무통보 활동정지 및 탈퇴 처리됩니다.

본 사이트의 합격후기 및 자료들을 무단 복제, 배포하는 경우에는 저작권법 제 97조의 저작재산권침해죄에 해당하며, 저작권법에 의거 법적조치에 처해질 수 있습니다.

추천을 눌러 베스트로 올려주세요!닫기 아이콘
신고하기
close-icon

작성자 링커리어

신고글 [데이콘 관광데이터 경진대회] 비전공자 수상 후기

사유선택
  • check-icon
    욕설/비하 발언
  • check-icon
    음란성
  • check-icon
    홍보성 콘텐츠 및 도배글
  • check-icon
    개인정보 노출
  • check-icon
    특정인 비방
  • check-icon
    기타

허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.

댓글 1
APP 설치하고
스크랩한 공고의
마감 알림을 받아보세요!
app-banner-image플레이스토어-배너앱스토어-배너