Data Engineering

Data Engineering/Data ·
본 포스팅은 '데이터 품질'과 '데이터 다운타임'에 대해 설명하고, '데이터 품질'을 향상시키기 위한 방법들을 정리한 포스팅입니다. 1. 서론데이터는 오늘날의 비즈니스와 의사결정의 핵심 자원이라고 할 수 있다. 그러나 데이터의 품질 문제나 다운타임은 빈번하게 예기치 않은 오류와 혼란을 초래한다. 이 글에서는 데이터 품질과 다운타임이 무엇인지 알아보고, 데이터 품질 문제를 해결하고 다운타임을 줄이기 위한 주요 전략과 도구를 살펴보려고 한다. 데이터 엔지니어로 일하다보면 다음과 같은 상황을 마주할 때가 있다.👨‍💻 개발자: "쿼리 작업이 끝났습니다! 데이터 파이프라인도 다 구축했고요. 이제 필요한 데이터는 다 모인 거죠?"🧑‍💼 현업 부서 담당자: "어... 그런데 필요한 데이터가 누락된 것 같은데요..
Data Engineering/Spark ·
이 글은 Spark의 Data Skew 문제를 해결하기 위해 시도했던 방법과 이후 Suffyan Asad님의 글을 기반으로 학습한 방법을 적용해 그 결과를 비교 및 분석한 포스팅입니다.한국어 번역 및 재구성에 대해 저자의 허락을 받았습니다.1. Introduction이번 포스팅은 Apache Spark에서 Data Skew를 감지하고 처리하는 방법에 대해 설명하며 다음의 주제에 대해 살펴본다.Data Skew란 무엇이고, Spark 작업의 성능에 어떤 영향을 미치는지, 특히 조인 작업의 데이터 스큐를 중심으로 설명한다.Spark UI를 사용하여 Data Skew 확인하는 방법최신 버전의 Spark에서 제공되는 기본 최적화 기능과 데이터 변경을 사용하여 Data skew를 처리하는 몇 가지 예제 Data ..
Data Engineering/Data ·
데이터 엔지니어링 입문서로 추천되는 '빅데이터를 지탱하는 기술'에 대해 개인적인 생각으로 정리한 글입니다.데이터 엔지니어로서 업무를 시작하기 전과 시작한 후에 느끼는 점이 달라 정리하게 됐습니다. 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.(출처 표기가 되지 않은 이미지는 모두 직접 그린 것이기 때문에 사용하실 때 반드시 출처를 남겨주시길 바랍니다.)  빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고빅데이터를 지탱하는 기술 | 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었product.kyobobook.co.kr이 책의 두 번째 장인 '빅데이터의 탐색' 부분에서는 크로스..
Data Engineering/Hadoop ·
HDFSHadoop Distributed File System의 약자로, 하둡에서 대용량 데이터를 저장하고 관리하기 위해 설계된 분산 파일 시스템이다.간단히 말하면, HDFS는 여러 대의 컴퓨터(노드)들에 데이터를 나눠 저장하는 시스템이다. HDFS의 주요 특징1. 데이터 분산 저장- HDFS는 데이터를 여러 조각으로 나눠서 여러 컴퓨터(노드)에 저장한다. 예를 들어, 1GB 크기의 파일을 128MB씩 나눠서 8개의 블록으로 쪼개고, 각각의 블록을 서로 다른 노드에 저장한다.2. 데이터 복제- HDFS는 데이터를 안전하게 보관하기 위해 복사본을 만든다. 보통 한 데이터 블록의 복제본이 최소 3개의 다른 노드에 저장된다. 이렇게 하면 한 노드에 문제가 생기더라도 데이터를 잃지 않고 복구할 수 있다.3. 고..
Data Engineering/Hadoop ·
본 포스팅은 패스트캠퍼스의 '초격차 데이터 엔지니어링 강의' 일부를 개인적으로 정리한 내용입니다.문제가 되는 부분이나 잘못된 부분은 댓글로 남겨주시면 감사하겠습니다.1. Hadoop의 필요성하둡(Hadoop)은 대용량 비정형 데이터를 처리하기 위해 설계된 분산 데이터 처리 시스템이다.기존 RDBMS는 대용량 데이터를 처리하는데 한계가 있고 비용이 많이 들지만, 하둡은 저렴한 x86 리눅스 서버에서도 쉽게 설치 및 운영할 수 있다. 데이터 용량이 늘어나면 단순히 노드를 추가해 확장할 수 있으며, 데이터 복제 기능을 통해 장애에도 데이터 복구가 가능하다.또한, 분산된 여러 서버에서 동시에 데이터 처리가 가능해 기존의 데이터 처리 방법보다 성능이 뛰어나다.한 가지 사례로, 뉴욕 타임즈는 130년치 신문 기사를..
Data Engineering/Airflow ·
실무에서 Kubernetes Executor 만큼 많이 사용되는 Celery Executor의 아키텍처에 대해 정리해보자.Celery ExecutorCelery Executor는 Airflow에서 작업(Task)를 여러 Worker에게 분산하여 처리하는 방식이다.Celery라는 분산 작업 큐 시스템을 사용하여 작업을 관리하고 분배한다.ComponentWeb Server: Web UI를 제공하며, 사용자가 DAG과 Task의 상태를 모니터링하고 관리할 수 있게 한다. Task를 수동으로 트리거할 수도 있다.Workers:실제로 할당된 Task를 실행한다. Celery Executor는 여러 Worker에게 Task를 분산하여 할당한다.Database: 메타데이터 데이터베이스로, DAG, Task, 스케줄링..
CDC(Change Data Capture) 개념CDC(Change Data Capture)는 데이터베이스에서 데이터의 변경 사항을 실시간으로 추적하고 기록하는 기술이다. 쉽게 말해, 데이터베이스에 어떤 변화가 생겼는지(ex. 데이터 추가, 수정, 삭제)를 자동으로 감지하고, 그 변화를 다른 시스템이나 애플리케이션에게 전달한다. CDC가 왜 중요할까?기업에서는 여러 시스템이 서로 데이터를 공유하거나 동기화해야하는 경우가 많다. 간단한 예를 들어, 웹 사이트에서 고객이 주소를 변경하면, 그 정보가 다른 관련 시스템(ex. 배송 시스템, 고객 관리 시스템 등)에도 즉시 반영돼야 한다. 이 때, CDC를 사용하면 데이터베이스의 변화가 생길 때마다 이를 자동으로 감지하고 필요한 시스템에 변화된 정보를 실시간으로..
Data Engineering/Data ·
데이터 엔지니어링 입문서로 추천되는 '빅데이터를 지탱하는 기술'에 대해 개인적인 생각으로 정리한 글입니다.데이터 엔지니어로서 업무를 시작하기 전과 시작한 후에 느끼는 점이 달라 정리하게 됐습니다. 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.(출처 표기가 되지 않은 이미지는 모두 직접 그린 것이기 때문에 사용하실 때 반드시 출처를 남겨주시길 바랍니다.)  빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고빅데이터를 지탱하는 기술 | 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었product.kyobobook.co.kr 이 책의 가장 첫 장인 '빅데이터의 기초 지식' 부분에서는..
Data Engineering/Spark ·
해당 내용은 스파크 완벽 가이드를 개인적인 학습 내용과 함께 정리한 내용입니다. 스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의www.hanbit.co.kr  - spark-submit: 명령으로 운영용 애플리케이션 실행- Dataset: 타입 안정성(type-safe)을 제공하는 구조적 API- 구조적 스트리밍- 머신러닝과 고급 분석- RDD: 스파크의 저수준 API- SparkR3.1 운영용 애플리케이션 실행하기spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 한다.클러스터에 제출된 애플리케이션은 작업이 종료되거나..
'Data Engineering' 카테고리의 글 목록