'Data Engineering' 카테고리의 글 목록

Data Engineering/Kafka · 2025.03.02

Kafka에서 Dead Letter Queue(DLQ) 모니터링하기 (1) - 기본 개념

Kafka에서 Dead Letter Queue를 모니터링하는데 필요한 기본 개념을 정리한다.1. Dead Letter Queue(DLQ)란?DLQ의 개념Dead Letter Queue(DLQ)는 메시징 시스템에서 처리 실패한 메시지를 관리하는 보조 큐(Queue) 역할을 한다.Kafka, RabbitMQ, AWS SQS 같은 메시지 큐 시스템에서 많이 사용되며, 실패한 메시지를 따로 보관하여 재처리하거나 분석하는 역할을 한다. 메시지 처리 실패는 네트워크 장애, 메시지 손상, 대상 시스템의 비정상 상태 등 다양한 이유로 발생할 수 있다. 메시지가 정상적으로 전달되지 않을 경우, 대신 DLQ로 메시지를 redirect 시켜 유실되거나 무한 재시도되는 것을 방지한다. 이를 통해 주요 메시지 처리 흐름의 안정..

Data Engineering/Data · 2025.02.16

[데이터 중심 애플리케이션 설계] 1. 신뢰할 수 있고 확장 가능하며 유지보수하기 쉬운 애플리케이션

데이터 엔지니어 관점에서 '데이터 중심 애플리케이션 설계'를 위해 해당 책을 읽고, 여러 직군의 사람들과 스터디를 진행하게 됐습니다.책의 전체 내용을 단순히 나열식으로 정리하기보다는 아래의 방식으로 책을 정리해보려고 합니다.잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 데이터 중심 애플리케이션 설계 | 마틴 클레프만 - 교보문고데이터 중심 애플리케이션 설계 | 데이터는 오늘날 시스템을 설계할 때 마주치는 많은 도전 과제 중에서도 가장 중심에 있다. 확장성, 일관성, 신뢰성, 효율성, 유지보수성과 같은 해결하기 어려product.kyobobook.co.kr1. 새롭게 배운 개념(New)🔹 데이터 시스템이란?📌 데이터 시스템(Data System)은 데이터를 저장하고, 처리하고, 전송하는 데 ..

Data Engineering/Data · 2024.11.10

Garbage In, Garbage Out! 당신의 데이터 믿을만한가요?

본 포스팅은 '데이터 품질'과 '데이터 다운타임'에 대해 설명하고, '데이터 품질'을 향상시키기 위한 방법들을 정리한 포스팅입니다. 1. 서론데이터는 오늘날의 비즈니스와 의사결정의 핵심 자원이라고 할 수 있다. 그러나 데이터의 품질 문제나 다운타임은 빈번하게 예기치 않은 오류와 혼란을 초래한다. 이 글에서는 데이터 품질과 다운타임이 무엇인지 알아보고, 데이터 품질 문제를 해결하고 다운타임을 줄이기 위한 주요 전략과 도구를 살펴보려고 한다. 데이터 엔지니어로 일하다보면 다음과 같은 상황을 마주할 때가 있다.👨‍💻 개발자: "쿼리 작업이 끝났습니다! 데이터 파이프라인도 다 구축했고요. 이제 필요한 데이터는 다 모인 거죠?"🧑‍💼 현업 부서 담당자: "어... 그런데 필요한 데이터가 누락된 것 같은데요..

Data Engineering/Spark · 2024.10.27

데이터가 Even하게 분산되지 않았어요, Spark에서 Data Skew 해결하기!

이 글은 Spark의 Data Skew 문제를 해결하기 위해 시도했던 방법과 이후 Suffyan Asad님의 글을 기반으로 학습한 방법을 적용해 그 결과를 비교 및 분석한 포스팅입니다.한국어 번역 및 재구성에 대해 저자의 허락을 받았습니다.1. Introduction이번 포스팅은 Apache Spark에서 Data Skew를 감지하고 처리하는 방법에 대해 설명하며 다음의 주제에 대해 살펴본다.Data Skew란 무엇이고, Spark 작업의 성능에 어떤 영향을 미치는지, 특히 조인 작업의 데이터 스큐를 중심으로 설명한다.Spark UI를 사용하여 Data Skew 확인하는 방법최신 버전의 Spark에서 제공되는 기본 최적화 기능과 데이터 변경을 사용하여 Data skew를 처리하는 몇 가지 예제 Data ..

Data Engineering/Data · 2024.09.07

[빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색

데이터 엔지니어링 입문서로 추천되는 '빅데이터를 지탱하는 기술'에 대해 개인적인 생각으로 정리한 글입니다.데이터 엔지니어로서 업무를 시작하기 전과 시작한 후에 느끼는 점이 달라 정리하게 됐습니다. 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.(출처 표기가 되지 않은 이미지는 모두 직접 그린 것이기 때문에 사용하실 때 반드시 출처를 남겨주시길 바랍니다.) 빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고빅데이터를 지탱하는 기술 | 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었product.kyobobook.co.kr이 책의 두 번째 장인 '빅데이터의 탐색' 부분에서는 크로스..

Data Engineering/Hadoop · 2024.09.06

HDFS(Hadoop Distributed File System)

HDFSHadoop Distributed File System의 약자로, 하둡에서 대용량 데이터를 저장하고 관리하기 위해 설계된 분산 파일 시스템이다.간단히 말하면, HDFS는 여러 대의 컴퓨터(노드)들에 데이터를 나눠 저장하는 시스템이다. HDFS의 주요 특징1. 데이터 분산 저장- HDFS는 데이터를 여러 조각으로 나눠서 여러 컴퓨터(노드)에 저장한다. 예를 들어, 1GB 크기의 파일을 128MB씩 나눠서 8개의 블록으로 쪼개고, 각각의 블록을 서로 다른 노드에 저장한다.2. 데이터 복제- HDFS는 데이터를 안전하게 보관하기 위해 복사본을 만든다. 보통 한 데이터 블록의 복제본이 최소 3개의 다른 노드에 저장된다. 이렇게 하면 한 노드에 문제가 생기더라도 데이터를 잃지 않고 복구할 수 있다.3. 고..

Data Engineering/Hadoop · 2024.09.03

Hadoop을 사용하는 이유

본 포스팅은 패스트캠퍼스의 '초격차 데이터 엔지니어링 강의' 일부를 개인적으로 정리한 내용입니다.문제가 되는 부분이나 잘못된 부분은 댓글로 남겨주시면 감사하겠습니다.1. Hadoop의 필요성하둡(Hadoop)은 대용량 비정형 데이터를 처리하기 위해 설계된 분산 데이터 처리 시스템이다.기존 RDBMS는 대용량 데이터를 처리하는데 한계가 있고 비용이 많이 들지만, 하둡은 저렴한 x86 리눅스 서버에서도 쉽게 설치 및 운영할 수 있다. 데이터 용량이 늘어나면 단순히 노드를 추가해 확장할 수 있으며, 데이터 복제 기능을 통해 장애에도 데이터 복구가 가능하다.또한, 분산된 여러 서버에서 동시에 데이터 처리가 가능해 기존의 데이터 처리 방법보다 성능이 뛰어나다.한 가지 사례로, 뉴욕 타임즈는 130년치 신문 기사를..

Data Engineering/Airflow · 2024.08.19

Architecture on Celery Executor

실무에서 Kubernetes Executor 만큼 많이 사용되는 Celery Executor의 아키텍처에 대해 정리해보자.Celery ExecutorCelery Executor는 Airflow에서 작업(Task)를 여러 Worker에게 분산하여 처리하는 방식이다.Celery라는 분산 작업 큐 시스템을 사용하여 작업을 관리하고 분배한다.ComponentWeb Server: Web UI를 제공하며, 사용자가 DAG과 Task의 상태를 모니터링하고 관리할 수 있게 한다. Task를 수동으로 트리거할 수도 있다.Workers:실제로 할당된 Task를 실행한다. Celery Executor는 여러 Worker에게 Task를 분산하여 할당한다.Database: 메타데이터 데이터베이스로, DAG, Task, 스케줄링..

Data Engineering/Fundamentals · 2024.08.16

CDC(Change Data Capture) 개념 및 테크 기업 사례 살펴보기

CDC(Change Data Capture) 개념CDC(Change Data Capture)는 데이터베이스에서 데이터의 변경 사항을 실시간으로 추적하고 기록하는 기술이다. 쉽게 말해, 데이터베이스에 어떤 변화가 생겼는지(ex. 데이터 추가, 수정, 삭제)를 자동으로 감지하고, 그 변화를 다른 시스템이나 애플리케이션에게 전달한다. CDC가 왜 중요할까?기업에서는 여러 시스템이 서로 데이터를 공유하거나 동기화해야하는 경우가 많다. 간단한 예를 들어, 웹 사이트에서 고객이 주소를 변경하면, 그 정보가 다른 관련 시스템(ex. 배송 시스템, 고객 관리 시스템 등)에도 즉시 반영돼야 한다. 이 때, CDC를 사용하면 데이터베이스의 변화가 생길 때마다 이를 자동으로 감지하고 필요한 시스템에 변화된 정보를 실시간으로..

티스토리툴바