취업

고등학생 신입 데이터 엔지니어 취업

귀요미찰쓰 2022. 5. 9. 14:06
728x90
반응형
반응형

고3인 저는 프로그래밍쪽 특성화고를 다니고 있습니다. 지금 취업 시즌입니다. 회사 공고들이 몇일 간격으로 계속 새로 올라옵니다. 저는 우리 학교에서 현재로써 면접을 가장 많이 보러 다녔습니다. 제가 진짜 가고 싶었던 회사들이 두곳이 있었습니다. 크래프트테크놀로지스와 에이비제트입니다. 에이비제트부터 면접을 봤습니다. 그 회사는 면접 볼 때도 회사원들 사이에서 엄청나게 분위기가 좋았고 이 회사 들어가면 실력이 엄청나게 늘 수 있을 것이라고 생각해서 엄청나게 들어가고 싶었습니다. 그런데 제가 준비를 덜한탓인가 회사에서는 저희 학교에서 가장 포트폴리오가 짱짱한 친구를 뽑았습니다. 가족 구성원들은 모두다 잘났는데 저는 계속 실망만 시켜드려서 증명을 해드리고 싶었던 저로써 떨여젔을 때 진짜 너무 힘들었습니다.

그 이후로 멘탈을 잡고 회사 3개 면접들을 보러 다녔습니다. 그중에서 제가 가장 다니고 싶은 회사인 크래프트테크놀로지스 회사 면접을 엄청나게 열심히 준비했습니다. 그런데 결국 취업했습니다!!!!

고등학생이라서 아직 실력적인 부분으로는 부족하긴한데 제 열정을 보고 발전 가능성을 보고 뽑았다고하네요. 

 

 

 

 

 

면접 질문 준비

기술 외 질문

  • 1분 자기소개
  • 회사 지원 동기 및 하고 싶은 일(커리어)
  • 나의 장점, 단점
  • 데이터 엔지니어링을 공부 한 이유는

기술 질문

  • 인공지능 스터디
    • CS224W 2021 Node Embeddings
      • 어려웠던 부분: 노드 임베딩 부분이 어려웠습니다. 임베딩을 왜 해야하는지와 임베딩이 무엇인지 알게 되었습니다. 잠재적으로 많은 다운스트림 예측에 사용하는 것도 알게 되었습니다.
      • 재미있었던 부분: 그래프를 위한 전통적인 머신러닝 부분을 소개하는 부분이 흥미 있었고 재미있었다. 그 부분에서 그래프를 위한 전통적인 머신러닝 동작 순서를 알려주는데 동작 순서를 알려드리자면 그래프 입력 → 피처 엔지니어링 → 피처를 구조화 → (알고리즘 학습 → 예측) 다운스트림 예칙 테스크
    • CS224W 2019 Lecture 3 Motifs and Structural Roles in Networks
      • 어려웠던 부분: network motif
      • 재미있었던 부분: configuration model
  • 포트폴리오
    • 아보카도 시세 예측
    Google Colaboratory
    • 사용한 라이브러리에 대해서 설명해주세요.
      • Pandas:
        • csv 파일을 읽고 그 데이터를 쉽게 다루기 위해서 사용,
      • fbprophet:
        • 페이스북에서 공개한 시계열 예측 라이브러리입니다. 특징을 말하자면 정확도가 매우 높고 매우 빠릅니다.
      • matplotlib:
        • 일정한 기간 간격으로 아보카도 가격을 그래프 형태로 그려주기 위해서 사용.
    • 데이터 셋은 어떻게 구하셨나요
      • 데이터 셋은 아보카도 데이터 셋을 사용하였는데요. Kaggle에서 무료로 제공하는 오픈 데이터 셋을 다운 받아서 사용하였습니다.
    • 소규모 서비스: SaaS 형태의 분석 툴로 충분
    • 규모가 커지면 데이터 엔지니어가 직접 데이터 환경을 구축하는게 낫습니다.
    • 데이터 파이프라인이란
      • 데이터를 생성해서 무사히 저장하기까지 일련의 과정
      • 데이터 파이프라인을 큼지막하게 나누면:
        1. 데이터 생성
        2. 데이터 수집
        3. 데이터 가공 후 저장(ETL)
        4. 데이터 시각화(BI)
    • ETL(Extract, Transform, Load) 시스템이란?
      • 과정:
        • 추출(Extract):
        • 변환(Transform)
        • 로드(Load)
    • 정형 데이터(ERP, CRM 데이터 등)가 ETL 프로세스를 거치면 어떤 데이터 웨어하우스에 저장하게 됩니다.
    • DW(데이터 웨어하우스):
      • 사용자 의사결정에 필요한 데이터가 들어가 있는 데이터베이스
      • 분석에 쓰이는 데이터가 데이터 웨어하우스에 저장됩니다.
    • DM(데이터 마트): 필요에 따라 만들어지는 작은 데이터 웨어하우스
    • 데이터 파이프라인과 ETL의 차이점
      • 데이터 파이프라인은 ETL을 포함하는 광범위한 용어
      • 즉, 데이터를 한 시스템에서 또 다른 시스템으로 옮기는 작업을 뜻한다.
    • 데이터 플랫폼이란
      • 머신러닝 개발 과정에서 데이터 작업은 여러번 반복으로 진행됩니다. 머신러닝 생애 주기 안에서 이 반복적인 사이클은 피할 수 없기 때문에, 이 데이터 작업 사이클을 관리하기 위해 도입하는 것이 머신러닝 데이터 플랫폼입니다.
      • https://www.superb-ai.com/ko-blog/machine-learning-data-platform 
      머신러닝 데이터 플랫폼이란?
    • 데이터 엔지니어링에 대해서 얼마나 알고 있는지
      • 관련 프레임워크를 써보거나 공부한 경험
        • Numpy: 수치 연산을 수행하는데 사용되는 라이브러리입니다.
          • 사용한 사례:
            • Numpy를 공부할 때 사용했습니다.
        • pandas: 데이터 처리 및 분석을 위한 패키지. SQL 테이블이나 엑셀 같이 표 형식으로 되어있는 데이터 처리 및 분석에 용이하고 빨라서 자주 쓰이는 패키지입니다.
          • 사용한 사례:
            • 아보카도 시세 예측하는 프로젝트에서 CSV 파일을 읽어들이고 그거에 해당하는 데이터를 쉽게 다루기 위해 사용하였습니다.
        • matplotlib: 파이썬의 대표적인 시각화 라이브러리
          • 사용한 사례:
            • 아보카도 시세 예측하는 프로젝트에서 갸격별로 시각화할 때 사용
      • DB 관련 개념은 얼마나 알고 있는지
    • 데이터 엔지니어 직무를 위해 어떤 걸 준비하셨는지 말씀해주세요.
      • 이수안 컴퓨터연구소 강의와 다른 여러강의에서 제공하는 matplotlib, numpy, pandas 라이브러리 공부 영상들을 보고 공부하였습니다.
      • 그리고 아보카드 시세 예측 프로그램에서 데이터를 원하는 부분만 사용하기 위해서 pandas를 사용하였습니다.
    • 빅데이터의 4V는 무엇입니까?
      • 첫 번째 V는 속도 시간이 지남에 따라 빅 데이터가 생성되는 속도를 말합니다. 따라서 데이터를 분석하는 것으로 간주 할 수 있습니다.
      • 두 번째 V는 종류 이미지, 로그 파일, 미디어 파일, 음성 녹음 등 다양한 형태의 빅 데이터
      • 세 번째 V는 음량 데이터의. 사용자 수, 테이블 수, 데이터 크기 또는 레코드 수일 수 있습니다.
      • 네 번째 V는 정확성 데이터의 불확실성 또는 확실성과 관련이 있습니다. 즉, 데이터의 정확성에 대해 얼마나 확신 할 수 있는지 결정합니다.
    • 구조화된 데이터는 구조화되지 않은 데이터와 어떻게 다릅니까?기본 지식
    • SQL에 관해서 질문
    • 데이터 모델링의 디자인 스키마에 대해 알려주세요.
      • 데이터웨어 하우스와 운영 데이터베이스의 차이점은 무엇인가요?스타 스키마와 눈송이 스키마의 차이점은 무엇인가요?
      • OLTP vs OLAP

      • 재무 데이터 관련해서 질문
      • 데이터 파이프라인에 대한 아키텍처 설계
      • 데이터 파이프라인과 아키텍처 변천사
      • 빅데이터 분산처리
        • 분산처리를 해보진 않았지만 왜 사용하는지는 대충 알고 있습니다. 분산 처리를 통해 기업은 각종 시스템 자원의 투명성을 보장합니다. 투명성이란 다수의 컴퓨터로 구성된 시스템을 가상화해 마치 한대의 컴퓨터 시스템인 것처럼 만드는 특성입니다.
        빅데이터 분산 처리 기술의 이해
      • 하둡이란?
        • 대용량의 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 플랫폼이며, 빅데이터 처리와 분석을 위한 플랫폼중 사실상 표준으로 자리 잡고 있습니다.
      • LINUX를 어느정도로 써봤는지
        • 리눅스를 잘하지는 않지만
      • DB 설계 경험이 있는지
      • Docker를 해봤는지, 왜 사용하는지
        • 사용을 해보지는않았지만 왜 사용하는지는 알고 있습니다.
        • 사용하는 이유:
          • 코드를 더 빨리 전달하고, 애플리케이션 운영을 표준화하고, 코드를 원활하게 이동하고, 리소스 사용률을 높여 비용을 절감할 수 있다.
      • 객체지향 프로그래밍에 대해 이해를 하고 있는지
        • 프로그래밍에서 필요한 데이터를 추상화시켜 상태와 행위를 가진 객체를 만들고 그 객체를 간의 유기적인 상호작용을 통해 로직을 구성하는 프로그래밍 방법입니다.
          • 장점:
            • 코드 재사용이 용이하다.
            • 대형 프로젝트에 적합
          • 단점:
            • 처리 속도가 느림.
            • 객체가 많으면 용량이 커질 수가 있음.
      • R을 써보았는지, 써 봤다면 어느정도 써 봤는지
        • 사용을 해보지는 않지만 무엇인지는 알고 있습니다. 통계 계산과 그래픽을 위해 특화된 프로그래밍 언어로 알고 있습니다.
      • SQL을 어느정도로 써봤는지
      • Windows 함수가 무엇인가? ROW_NUMBER를 어떻게 활용할 수 있는가?
        • 행과 행의 관계를 정의하기 위해 사용합니다.
        • ROW_NUMBER:
          • 특정 쿼리문 결과 데이터에 순번을 지정할 때 사용
      • Join이 무엇이고 어떤 종류가 있는가?
        • 두개의 테이블을 엮어서 원하는 데이터를 추출할 수 있습니다.
      • 영어를 잘하는 편이라고 적으셨는데 영어로 자기 소개 해보세요
        • Hello my name is Justin. I really enjoy studying in backend and AI. When I work in website projects. I use vanilla java script and node.js and React for my projects. In AI projects I use Python for data analysis and to train my AI model.
      • 신기술을 확인하기 위해서 영어로 되어있는 공식 문서를 확인하였다고했는데요. 신기술에대한 원서를 읽은 경험을 말하시오.
        • 원서를 읽었을 때중에서 신기술보다 가장 기억에 남는 기억을 말하자면 GPT-3에 대해서 봤을 때
      • 데이터 엔지니어가 하고 싶은 이유
      • SQL 튜닝을 해봤는지
      • 모르는게 있을 때 보통 어떻게 답을 찾는가
      • 엔지니어로서 본인의 강점은 무엇이라고 생각하는지
      • 인공지능 스터디에 관해서 질문할듯
      • 여러 언어를 써 봤는데 쓸 수 있는 언어중에서 본인이 제일 강점이 있는 언어는 무엇이고 그 이유는 무엇인지?
        • 파이썬 또는 node.js
      • 팀워크 관련 질문 : 팀프로젝트에서 팀장을 했었다고 했는데 어려운 점은 무엇이고 어떻게 해결했는지, 팀프로젝트에서 역할을 나눌 때 어떻게 했는지 기타등등…
      • 나는 어떤 인간인지
      • 파이썬 자료형 종류
        • tuple
          • ()로 작성, 값 변경 X
        • list
          • [ ]로 작성, 값 변경 O
        • dictionary
          • {}(중괄호) 안에 key:value 형식으로 저장하며 각 키와 값은 ,(콤마)로 구분해준다.
          • 수정, 삭제, 추가가 가능하다.
        • set
          • {}(중괄호)를 활용하여 생성
          • 중복을 허용하지 않는다.
          • 순서가 없다.
      • Python의 dictionary와 map의 차이점, list와 set의 차이점을 말하고 각각의 자료구조를 사용하는 경우의 예시를 들어달라.
        • 파이썬
      • 자료구조에서 스택과 큐의 차이가 무엇이고, 각 자료구조가 필요한 경우를 예시를 들어달라
        • 스택: LIFO
          • 후위 표기법 계산
        • 큐: FIFO
          • 프로세스 관리
      • 스레드와 프로세스의 차이가 무엇인가?
        • 프로세스: 운영체제로부터 자원을 할당받는 작업의 단위
        • 스레드: 할당 받은 자원을 이용하는 실행의 단위이고 프로세스 내에 여러개 생길 수 있
      데이터 엔지니어쪽 면접을 볼 때 느끼는 공통점들
      • 도커나 쿠버네티스, AWS나 GCP와 같이 인프라/플랫폼 구축 경험을 중요하게 생각하는 점
      • SQL을 잘 이해하고 있는 사람을 찾는다는점
      • ETL이라 경험을 중요하게 생각한다는 점
      • DB에 대한 이해도
      • SQL 튜닝을 할줄 안다(신입한테 이정도까지 안 바란다.)
 

머신러닝 데이터 플랫폼이란?

머신러닝 개발 과정에서 데이터 작업은 여러 번 반복되어 진행됩니다. 데이터 확보와 가공, 관리는 머신러닝 개발 프로젝트 기간 전체와 서비스 운영 기간 전체에 걸쳐 반복되어야 합니다. 이러

www.superb-ai.com

 

 

내 참고한 사이트:

상위 29 개 데이터 엔지니어 인터뷰 질문 및 답변 - 다른

 

상위 29 개 데이터 엔지니어 인터뷰 질문 및 답변 - 다른

다가오는 인터뷰를 준비하는 데 도움이되는 가장 자주 묻는 데이터 엔지니어 인터뷰 질문 및 답변 목록입니다.

ko.myservername.com

데이터 엔지니어 면접 후기

 

데이터 엔지니어 면접 후기

안녕하세요. ekim입니다. 최근 데이터 엔지니어로 취업을 하게 되어, 기쁜 마음으로 면접 후기를 풀게 되었습니다. 저는 데이터 분석가 직군으로 한 곳, 데이터 엔지니어 직군으로 몇몇 기업에 지

42place.innovationacademy.kr

 

반응형

'취업' 카테고리의 다른 글

2022-05-04(취업 면접5)  (0) 2022.05.09
2022-05-02(취업 면접4)  (0) 2022.05.09
2022-04-29(취업 면접3)  (0) 2022.05.07
2022-04-22(취업 면접2)  (0) 2022.05.06
2022-04-20(취업 면접1)  (0) 2022.04.26