전체 글

Cloud/AWS ·
Amazon EMR의 아키텍처를 개인적으로 정리하기 위해 작성한 포스팅입니다. 잘못된 내용이 있으면 댓글로 남겨주시면 감사하겠습니다!   Overview of Amazon EMR architecture - Amazon EMROverview of Amazon EMR architecture Amazon EMR service architecture consists of several layers, each of which provides certain capabilities and functionality to the cluster. This section provides an overview of the layers and the components of each. Storagdocs.aws.amazon.c..
Cloud/AWS ·
Amazon EMR의 대략적인 개념을 정리하기 위해 작성한 포스팅입니다. 잘못된 내용이 있으면 댓글로 남겨주시면 감사하겠습니다!  Overview of Amazon EMR - Amazon EMROverview of Amazon EMR This topic provides an overview of Amazon EMR clusters, including how to submit work to a cluster, how that data is processed, and the various states that the cluster goes through during processing. Understanding clusters and nodes Tdocs.aws.amazon.comWhat is Amazon ..
Daily Life/Doodle ·
포스팅을 쓸 때마다, 아니 이전 포스팅까지도 무슨 바람인지 매크로들의 표적이 돼서 여러 글이 온통 매크로 댓글로 도배가 됐다.'댓글 많으면 좋지 뭐가 문제야' 할 수도 있지만, 방문자 수도 이상해지고 블로그에 대한 통계 데이터 역시 신뢰하기 어려워졌다. 개발이나 나의 커리어 방향에 대한 글을 쓰기 위해 만든 블로그인데..소싯적 버디버디, 싸이월드 방명록 수준의 댓글들이 도배되기 시작하면서 스트레스가 쌓였다.매번 직접 삭제하고 IP, 본문, 이름, 사이트 필터링 등록해두는 것도 한계가 있었다.정상처럼 보이는 댓글이 올라와도 작성자의 블로그를 방문해 정상인이라고 판단되지 않으면 답 댓글을 남기지 않게 됐다. (도를 믿습니까처럼 정상적인 질문 이후, 아주 자연스럽게 이상한 대화로 빠지는 대화가 너무 많았어서?..
Daily Life/Review ·
퇴사 이후, 데이터 엔지니어로서 커리어 방향에 대한 불안이 컸었다.데이터 엔지니어 업무가 나랑 맞는지에 대한 생각보다는 '내가 지금 준비하고 있는 이 방향이 맞는 걸까?' 라는 고민을 굉장히 많이 하게 된 것 같다.이력서부터 포트폴리오 및 면접, 그리고 회사에 대한 생각까지 누군가 '이 쪽으로 가면 정답이니 이 쪽으로 가'라고 말해줬으면 했다.당연히, 불가능한 이야기고 누군가의 이야기도 결국 참고만 할 수 밖에 없지만 그래도 현직에 계신 분들에게 조언을 얻으면 좋을 것 같아 커피챗을 진행하게 됐다. 8년차의 데이터 엔지니어분과 함께 커피챗을 진행하며 지금의 감정 및 생각을 정리할 겸 글을 작성하게 됐다.(말이 커피챗 후기지 그냥 개인적인 감정을 써내려간 글이다.) 첫 번째 커피챗은 이력서와 포트폴리오 피..
Data Engineering/Data ·
데이터 엔지니어링 입문서로 추천되는 '빅데이터를 지탱하는 기술'에 대해 개인적인 생각으로 정리한 글입니다.데이터 엔지니어로서 업무를 시작하기 전과 시작한 후에 느끼는 점이 달라 정리하게 됐습니다. 잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다.(출처 표기가 되지 않은 이미지는 모두 직접 그린 것이기 때문에 사용하실 때 반드시 출처를 남겨주시길 바랍니다.)  빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고빅데이터를 지탱하는 기술 | 다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었product.kyobobook.co.kr이 책의 두 번째 장인 '빅데이터의 탐색' 부분에서는 크로스..
Data Engineering/Hadoop ·
HDFSHadoop Distributed File System의 약자로, 하둡에서 대용량 데이터를 저장하고 관리하기 위해 설계된 분산 파일 시스템이다.간단히 말하면, HDFS는 여러 대의 컴퓨터(노드)들에 데이터를 나눠 저장하는 시스템이다. HDFS의 주요 특징1. 데이터 분산 저장- HDFS는 데이터를 여러 조각으로 나눠서 여러 컴퓨터(노드)에 저장한다. 예를 들어, 1GB 크기의 파일을 128MB씩 나눠서 8개의 블록으로 쪼개고, 각각의 블록을 서로 다른 노드에 저장한다.2. 데이터 복제- HDFS는 데이터를 안전하게 보관하기 위해 복사본을 만든다. 보통 한 데이터 블록의 복제본이 최소 3개의 다른 노드에 저장된다. 이렇게 하면 한 노드에 문제가 생기더라도 데이터를 잃지 않고 복구할 수 있다.3. 고..
삐야오
Hit the books!