현재 2년 반 정도 SI 업체에서 일하고 있는 BI 개발자입니다.
최근 데이터 엔지니어로 이직을 희망하고 있습니다.
그래서 몇 가지 질문을 드리고자 문의를 남기게 되었습니다.
-
1. 데이터 엔지니어와 연관이 적은 직무/경력인데 이직이 가능할까요?
Azure Data Factory 파이프라인 + 뷰 or 저장 프로시저(SQL) 로 데이터 마트를 구축한 경험은 있습니다.
다만, BI 보고서 개발이 주 업무고 위의 업무는 간단한 수준으로만 진행했었습니다. (전체 업무 경력의 15~20% 정도 비중입니다)
또, 최근 투입된 프로젝트에선 BI 개발/유지보수 업무만 맡고 있습니다. 가끔 뷰 쿼리만 적는 수준이라서 데이터 엔지니어 직무와 거리가 있습니다. 애초에 BI 개발자보다 백엔드 개발자가 경력 인정이 더 쉬울 거 같다는 생각도 있습니다.
이 상황에서 현실적으로 조금이라도 경력이 어느 정도라도 인정을 받으며 이직이 가능할까요? 데이터 엔지니어는 신입으로의 채용이 거의 없다고 들어서 이 부분이 걱정되네요.
사실 개인적으론 직무 + 도메인 (IT 어플리케이션 업체) 정도만 맞으면 신입으로 채용되어도 괜찮습니다. 신입으로는 채용을 안하는 게 걱정입니다. -
2. 만 3년을 채우는 게 유리할까요?
현재까지 2년 7개월 정도 경력이 있는데 만 3년을 채우는 게 유리할까요? 요즘 프로젝트나 직장 상사/동료 때문에 힘든 상황입니다. 게다가 업무도 이직하고 싶은 부분과 다르기도 한 상황입니다.
차라리 퇴사 후 포트폴리오 & CS 지식 쌓기에 집중하는 게 좋을지 고민되어 질문 드립니다. -
3. 하나의 프로젝트를 기반으로 시스템과 아키텍처를 점차 키우는 방향으로 생각 중인데 괜찮을까요?
1) 웹 로그 기반 사용자 분석 프로젝트
웹 로그 (샘플 데이터, 로컬 파일 시스템) - Airflow Micro-Batch 적재 (5-10분 간격) - S3 or Cloud Storage (데이터 레이크) 적재 (Iceberg 활용) - Pyspark & Airflow 사용해 데이터 레이크 상위 레이어 & BigQuery 데이터 웨어하우스 적재 - BigQuery에서 SQL + Airflow로 Data Mart 구축 - Data Lake 기반 A/B 테스트/통계 분석 환경 구축 & Data Mart 데이터 기반 AARRR, Cohort, Funnel 등 보고서 분석 가능한 환경 구축
2) 운영 RDBMS & GA API 데이터 추가해서 사용자 분석 고도화 ( AARRR & RFM 분석 강화 )
운영 DB의 고객, 주문 데이터 + GA API 데이터 수집 - Airflow 로 일 단위 적재 - S3 적재 - Airflow + Pyspark로 S3 상위 레이어 & BigQuery에 운영DB & GA 데이터 추가 (추가적인 분석 DM도 추가 희망)
3) 로그 기반 운영 환경 실시간분석 시스템 구축
시스템, 에러, 네트워크, 보안 로그 - Kafka 이벤트 Topic 기반 스트리밍 구축 - Spark의 Structured Streaming 으로 Data Lake와 DM에 실시간으로 적재 - 운영 모니터링 대시보드
이후 데이터 파이프라인 모니터링 기능 추가, 메타데이터 분석 시스템 구축, 사용자용 API 응답 서버 구축 등등 이런 방식으로 하나의 개인 프로젝트 기능을 추가 방향으로 생각 중인데 괜찮을까요? -
4. 클라우드는 AWS, S3 등등 쓰면서 데이터 웨어하우스는 BigQuery를 많이 쓰던데 이유는 뭔가요?
최근 기업들에서 데이터 파이프라인, 저장소 등은 다 AWS에 구축하는데 DW만 BigQuery를 사용하는 케이스를 많이 봤습니다. 혹시 이유가 있나요? 호환성 이슈나 여러 에러가 있을지 걱정이고, AWS와 GCP 중 어느 곳에 메타데이터 관련 시스템을 구축할지 이런 것들이 궁금하네요.
작성자 AuroraTale
신고글 데이터 엔지니어로의 이직 고민 & 질문
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.