본문 바로가기

분류 전체보기

(262)
데이터 파이프라인 핵심 가이드 7 DAG(Directed Acyclic Graph) 연결 방향이 존재하고 순회하지 않는 그래프. 한 작업이 완료된 이후에 다음 작업이 실행되며, 이전 작업으로 돌아가지 않는다. Airflow 상호 종속성이 있는 여러 작업을 포함하는 워크플로(특히 데이터 파이프라인)을 모니터링 파이썬으로 빌드되었지만 모든 언어 / 플랫폼에서 실행되는 작업을 실행 가능 데이터베이스를 사용하여 DAG의 실행 기록, 에어플로우 구성과 관련된 메타데이터를 저장 기본적으로 SQLite를 사용하지만, 상용에서는 MySQL 또는 Postgres DB를 사용하는 것이 좋음 sqlalchemy를 사용하여 DB에 손쉽게 연결 가능 SQL을 사용해 데이터 쿼리 가능 -> 파이프라인 성능을 분석하는 데 좋음 DAG는 파이썬 스크립트로 정의하며,..
Fluent Bit에 SQS Output 연결하기(feat. Golang) Fluent Bit에는 공식 SQS Output 플러그인이 없다. https://github.com/PayU/fluentBit-sqs-plugin GitHub - PayU/fluentBit-sqs-plugin: FluntBit custom output plugin which allows sending messages to AWS-SQS. FluntBit custom output plugin which allows sending messages to AWS-SQS. - GitHub - PayU/fluentBit-sqs-plugin: FluntBit custom output plugin which allows sending messages to AWS-SQS. github.com 하여 위의 플러그인을 이용한..
데이터 파이프라인 핵심 가이드 6 6. 데이터 변환하기 파이프라인의 목적 : 비즈니스 통찰력 또는 분석을 생성하는 것. -> 데이터가 데이터 모델로 추가 변환됨 데이터 모델 데이터 분석을 위해 이해되고 최적화된 형식으로 데이터를 정형화화고 정의 데이터 웨어하우스에서 하나 이상의 테이블로 표시됨 테이블에서 중복 레코드 제거 증분 데이터 수집에서 실수로 이전 수집 시간 창과 겹치거나, 이전 실행에서 이미 수집된 일부 레코드를 선택한 경우 원본 시스템에서 중복 레코드가 실수로 생성된 경우 나중에 채워진(backfilled) 데이터가 테이블에 로드된 후속 데이터와 겹치는 경우 -> SQL 쿼리로 실행하는 것이 좋음 1. 쿼리 시퀀스 사용 CREATE TABLE distinct_orders AS SELECT DISTINCT OrderId, Ord..
데이터 파이프라인 핵심 가이드 1-3 지속적인 데이터 분석의 성공을 위해서는 분석 방법만큼이나 잘 구성된 데이터 파이프라인 구성이 필수 데이터분석이 잘 이뤄지기 위해서는 분석에 필요한 형태로 잘 정리된 데이터가 필요하고, 원하는 분석 결과를 얻기 위해서는 적합한 기간의 정확한 데이터가 필요 1. 데이터 파이프라인 소개 모든 화려한 대시보드와 머신러닝 모델, 그리고 비즈니스를 변화시키는 통찰력 뒤에는 데이터가 있다. 데이터는 새로운 석유다. 데이터의 진정한 가치는 그것이 정제되어 소비자에게 전달된 후의 잠재력에 있다. 가치사슬의 각 단계를 통해 데이터를 전달하려면 효율적인 파이프라인이 필요하다. 데이터 파이프라인 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정이다. 분석, 리포팅, 머신러닝 능력의 기..
2022.3월 회고 회사 3개월간 하던 프로젝트를 끝냈다! 야호 이제야 회사생활이 좀 살 만한 것 같다. ㅋㅋㅋ... 사내 첫 프로젝트 회고 팀 내에서도 회고를 진행했는데, 배운 점들에 대해 좋게 봐주셨다 ㅎㅎ 배운 점들을 잊지 말고, 앞으로 계속 좋은 자세를 지켜나가면 좋겠다! 새 프로젝트는 FluentD를 사용할 것 같은데, 개발 관련된 프로젝트도 하고 싶어서 파이썬 공부를 열심히 할 예정이다! 스터디 13주간 하던 이산수학 스터디가 끝났다. 챌린저스로 출석률을 관리했는데 수익률이 무려 50%에 달한다.... 다들 수학 포기하지 마.. ㅜㅜ 매주 공부하면서 책의 개념들이 알고리즘, 자료구조 강의를 수강하는데 굉장히 유용하기도 했고, 한 번 듣고는 완전히 내 것이 되지 않을 것 같아 좀 텀을 두고 다시 같은 책으로 스터디..
<머신러닝 파워드 애플리케이션> 리뷰 저는 영상 번역 일을 했었는데, 당시 사용하던 번역 툴들이 너무 불편했습니다. 산업 번역 쪽에서는 이미 번역한 단어, 문장이라면 '번역 메모리'에 저장되어, 다음에 똑같은 단어나 문장이 나온다면 이미 번역했던 것을 그대로 옮겨쓸 수 있다던데, 영상 번역 툴에는 그런 기능도 없었거든요. 그래서 저는 '영상 번역가들이 쉽게 번역할 수 있는 툴'을 만들고 싶었고, 구체적인 형태로는 번역할 문장 칸에 이런 식으로 추천 문장이 뜨고, 숫자 키 1을 누르면 '감사합니다' 가 자동 입력되는 방식을 생각했습니다. 하지만 개발을 고작 몇 개월 배운 당시에는 구현 가능한 정도가 아니라고 생각했고, 생각은 꿈으로만 그치고 맙니다. 그 생각도 잊혀져 갈 즈음, 이 책을 만났습니다. 은 아이디어에서 완성된 제품까지, 강력한 머..
스포티파이 시니어 데엔이 말하는 주니어 개발자를 위한 커리어 로드맵 헤이조이스에서 강연을 듣고 정리한 글입니다. 다소 두서없을 수 있습니다. 회사들은 최소 경력을 채우는 걸 선호 그래야 이력서에 쓸 만한 프로젝트가 생긴다. 짬바를 채워야 해외에서 잘 견딜 수 있다. 이직준비 2년 하셨음 백엔드 → 데이터 엔지니어로 커리어 전환을 한 이유 스파크 급부상 - 코세라에서 강의 듣는 데 재밌었음 스칼라 공부도 열심히 함 스파크를 쓰는 사이드 프로젝트를 할 수 있었음 외국 기업들이 우리나라보다 훨씬 잘 하고 있는 영역 → 외국 회사로 가야겠다! 데이터엔지니어가 하는 일 앱에서 굉장히 많은 데이터가 수집됨 상상 초월의 세세한 데이터 취업준비 알고리즘 : 꾸준히 혼자서 하는게 쉽지 않다. 일하고 싶은 언어 → star 많이 받은 프로젝트 → 작성자 어떤 기업 → 오픈 포지션이 많이 ..
사내 첫 프로젝트 회고 2021년 12월 말부터, 2022년 3월 말에 이르기까지 3개월 동안 진행했던 프로젝트가 끝났다. 수습 기간 이후에 특정한 목표를 가지고 장기간 진행하여, 기간 내에 끝을 낸 프로젝트는 처음이라 회고 글을 적고자 한다. 프로젝트의 목표와 기술 스택 사내에서 운영되는 애플리케이션과, API들을 Amazon Kubernetes(EKS) 환경 위로 이전하기 시작했다. EKS 환경 위에서 애플리케이션에서 만드는 로그들을 일괄적으로 Fluent Bit, Fluentd로 수집하여 Elasticsearch와 S3으로 보냈는데, 사용자 로그와 시스템 로그가 분리되지 않아 Elasticsearch에 부담이 간다. 사용자 로그의 파싱이 기존 로그의 형식처럼 파싱되지 않아 개발자들이 보기에 불편하다. 한 로그가 여러 개의..