전체 글

Cloud/AWS ·
Amazon EMR의 아키텍처를 개인적으로 정리하기 위해 작성한 포스팅입니다. 잘못된 내용이 있으면 댓글로 남겨주시면 감사하겠습니다!   Overview of Amazon EMR architecture - Amazon EMROverview of Amazon EMR architecture Amazon EMR service architecture consists of several layers, each of which provides certain capabilities and functionality to the cluster. This section provides an overview of the layers and the components of each. Storagdocs.aws.amazon.c..
Cloud/AWS ·
Amazon EMR의 대략적인 개념을 정리하기 위해 작성한 포스팅입니다. 잘못된 내용이 있으면 댓글로 남겨주시면 감사하겠습니다!  Overview of Amazon EMR - Amazon EMROverview of Amazon EMR This topic provides an overview of Amazon EMR clusters, including how to submit work to a cluster, how that data is processed, and the various states that the cluster goes through during processing. Understanding clusters and nodes Tdocs.aws.amazon.comWhat is Amazon ..
Daily Life/Doodle ·
포스팅을 쓸 때마다, 아니 이전 포스팅까지도 무슨 바람인지 매크로들의 표적이 돼서 여러 글이 온통 매크로 댓글로 도배가 됐다.'댓글 많으면 좋지 뭐가 문제야' 할 수도 있지만, 방문자 수도 이상해지고 블로그에 대한 통계 데이터 역시 신뢰하기 어려워졌다. 개발이나 나의 커리어 방향에 대한 글을 쓰기 위해 만든 블로그인데..소싯적 버디버디, 싸이월드 방명록 수준의 댓글들이 도배되기 시작하면서 스트레스가 쌓였다.매번 직접 삭제하고 IP, 본문, 이름, 사이트 필터링 등록해두는 것도 한계가 있었다.정상처럼 보이는 댓글이 올라와도 작성자의 블로그를 방문해 정상인이라고 판단되지 않으면 답 댓글을 남기지 않게 됐다. (도를 믿습니까처럼 정상적인 질문 이후, 아주 자연스럽게 이상한 대화로 빠지는 대화가 너무 많았어서?..
Daily Life/Review ·
퇴사 이후, 데이터 엔지니어로서 커리어 방향에 대한 불안이 컸었다.데이터 엔지니어 업무가 나랑 맞는지에 대한 생각보다는 '내가 지금 준비하고 있는 이 방향이 맞는 걸까?' 라는 고민을 굉장히 많이 하게 된 것 같다.이력서부터 포트폴리오 및 면접, 그리고 회사에 대한 생각까지 누군가 '이 쪽으로 가면 정답이니 이 쪽으로 가'라고 말해줬으면 했다.당연히, 불가능한 이야기고 누군가의 이야기도 결국 참고만 할 수 밖에 없지만 그래도 현직에 계신 분들에게 조언을 얻으면 좋을 것 같아 커피챗을 진행하게 됐다. 8년차의 데이터 엔지니어분과 함께 커피챗을 진행하며 지금의 감정 및 생각을 정리할 겸 글을 작성하게 됐다.(말이 커피챗 후기지 그냥 개인적인 감정을 써내려간 글이다.) 첫 번째 커피챗은 이력서와 포트폴리오 피..
Data Engineering/Data ·
데이터 엔지니어링 입문서로 추천되는 '빅데이터를 지탱하는 기술'에 대해 개인적인 생각으로 정리한 글입니다.데이터 엔지니어로서 업무를 시작하기 전과 시작한 후에 느끼는 점이 달라 정리하게 됐습니다. 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.(출처 표기가 되지 않은 이미지는 모두 직접 그린 것이기 때문에 사용하실 때 반드시 출처를 남겨주시길 바랍니다.)  빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고빅데이터를 지탱하는 기술 | 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었product.kyobobook.co.kr이 책의 두 번째 장인 '빅데이터의 탐색' 부분에서는 크로스..
Data Engineering/Hadoop ·
HDFSHadoop Distributed File System의 약자로, 하둡에서 대용량 데이터를 저장하고 관리하기 위해 설계된 분산 파일 시스템이다.간단히 말하면, HDFS는 여러 대의 컴퓨터(노드)들에 데이터를 나눠 저장하는 시스템이다. HDFS의 주요 특징1. 데이터 분산 저장- HDFS는 데이터를 여러 조각으로 나눠서 여러 컴퓨터(노드)에 저장한다. 예를 들어, 1GB 크기의 파일을 128MB씩 나눠서 8개의 블록으로 쪼개고, 각각의 블록을 서로 다른 노드에 저장한다.2. 데이터 복제- HDFS는 데이터를 안전하게 보관하기 위해 복사본을 만든다. 보통 한 데이터 블록의 복제본이 최소 3개의 다른 노드에 저장된다. 이렇게 하면 한 노드에 문제가 생기더라도 데이터를 잃지 않고 복구할 수 있다.3. 고..
ETC/Tech Contents Review ·
성장하지 않아도 괜찮습니다 - INFCON 2024성장해야 한다고 말합니다. 회사에서는 올해 당신은 얼마나 성장할건지 묻습니다. 성장이 무엇인지도 모르는데 성장하고 싶다고 합니다. 죄송합니다. 이건 뭔가 잘못된 것 같지 않나요? 이 발표www.inflearn.com본 포스팅은 INFCON 2024에서 김영재님의 '성장하지 않아도 괜찮습니다' 발표 내용을 개인적인 생각과 함께 정리한 글입니다.관련 저작권은 인프런과 김영재님에게 있습니다. 문제가 되는 부분은 댓글로 남겨주시면 감사하겠습니다. Speaker Profile김영재님- LINE ABC Studio, 기술임원- 데마에칸(일본 No.1 푸드 딜리버리) CPO- Product Members: 450명 (KR: 60명, JP: 390명)- 前 네이버 CL..
Data Engineering/Hadoop ·
본 포스팅은 패스트캠퍼스의 '초격차 데이터 엔지니어링 강의' 일부를 개인적으로 정리한 내용입니다.문제가 되는 부분이나 잘못된 부분은 댓글로 남겨주시면 감사하겠습니다.1. Hadoop의 필요성하둡(Hadoop)은 대용량 비정형 데이터를 처리하기 위해 설계된 분산 데이터 처리 시스템이다.기존 RDBMS는 대용량 데이터를 처리하는데 한계가 있고 비용이 많이 들지만, 하둡은 저렴한 x86 리눅스 서버에서도 쉽게 설치 및 운영할 수 있다. 데이터 용량이 늘어나면 단순히 노드를 추가해 확장할 수 있으며, 데이터 복제 기능을 통해 장애에도 데이터 복구가 가능하다.또한, 분산된 여러 서버에서 동시에 데이터 처리가 가능해 기존의 데이터 처리 방법보다 성능이 뛰어나다.한 가지 사례로, 뉴욕 타임즈는 130년치 신문 기사를..
Data Engineering/Airflow ·
실무에서 Kubernetes Executor 만큼 많이 사용되는 Celery Executor의 아키텍처에 대해 정리해보자.Celery ExecutorCelery Executor는 Airflow에서 작업(Task)를 여러 Worker에게 분산하여 처리하는 방식이다.Celery라는 분산 작업 큐 시스템을 사용하여 작업을 관리하고 분배한다.ComponentWeb Server: Web UI를 제공하며, 사용자가 DAG과 Task의 상태를 모니터링하고 관리할 수 있게 한다. Task를 수동으로 트리거할 수도 있다.Workers:실제로 할당된 Task를 실행한다. Celery Executor는 여러 Worker에게 Task를 분산하여 할당한다.Database: 메타데이터 데이터베이스로, DAG, Task, 스케줄링..
삐야오
'분류 전체보기' 카테고리의 글 목록