2024년을 돌아보고, 2025년을 맞이하며 작성하는 뒤늦은 회고 및 다짐글입니다.2024년이 아홉수여서인지 유독 다사다난한 해였던 것 같다😂1월부터 12월까지를 돌아보기 위해 두 가지 회고 템플릿을 사용하여 월별로 사건사고(?) 및 당시의 감정들을 복기해 봤다.먼저 포텐데이를 함께했던 또글또글 팀원들 중 성윤님께서 진행한 판교 퇴근길 밋업 with 인프런 #10 연말회고에 다녀온 팀원이 공유해 준 템플릿을 사용했다.성윤님의 회고 템플릿으로 돌아본 2024년크게 시기별 회고, 기억에 남는 사건, 2024년이 어떤 해였는지, 올해의 깨달음과 25년 분기별 Action Item을 작성했다.해당 템플릿이 비교적 간단한 형식인데 이를 좀 더 구체화해보려고 했다. (물론 이 방식도 간단히 회고하기에 최고..!)..
전체 글
프로젝트 배경퇴사 이후 막연하게 간단하더라도 실제 '서비스'를 개발, 운영하고 싶다는 생각을 가지고 있었다. 몇 가지 아이디어를 가지고 있었지만 '어디서부터 어떻게 개발해야 할까..' 라는 생각에 시작을 못 하고 있던 찰나 글또에서 1인 개발을 진행하고 있는 백엔드 개발자인 은찬님에게 무작정 상담을 요청했다.흔쾌히 혼자서 끙끙대던 사이드 프로젝트에 대한 고민도 들어주시고, 포텐데이라는 10일 간 서비스를 개발하는 해커톤을 소개해주셨다. 포텐데이는 비사이드의 프로그램 중 하나로 10일 동안 팀 매칭부터 기획, 개발까지 진행하는 온라인 해커톤이다.포텐데이에서 팀원들을 구할 수도 있었지만, 나는 좀 더 신원이 확실하고 의지가 있는 팀원들을 구하고자 글또에서 팀원을 찾기로 결정했다.당시 데이터 엔지니어링 경험만..
프로젝트 배경글또에서 '4_게임해또'라는 채널을 운영한지 벌써 한 달이 넘었다.그 동안 채널에서 104명이라는 많은 사람이 생겼고 아직도 사람들이 간간이 들어오고 있다.채널에서는 주로 특정 게임을 같이할 사람을 찾거나, 본인이 좋아하는 게임을 추천하는 활동이 이루어진다.위와 같이 사람들은 본인이 주로 플레이하는 게임을 간단히 소개 하는데,메시지가 많아지다보니 사람들이 같은 게임을 하는 사람을 쉽게 파악하기 어려워 보여 우선 데이터를 수집해 정리하기로 결정했다.간단한 작업을 통해, 사람들이 보낸 메시지를 기반으로 좋아하는 게임과 자주 플레이 하는 게임을 정리하고 간단하게 시각화할 수 있는 대시보드를 만들어보려고 한다. 오늘은 간단하게 데이터를 적재하는 작업까지만 진행할 예정이다.데이터 수집우선, Slack..
문제난이도: 플레티넘 514003번: 가장 긴 증가하는 부분 수열 5 수열 A가 주어졌을 때, 가장 긴 증가하는 부분 수열을 구해야 한다.예를 들어, 수열 A = {10, 20, 10, 30, 20, 50} 인 경우에 가장 긴 증가하는 부분 수열은 A = {10, 20, 10, 30, 20, 50} 이고, 길이는 4이다. 다음과 같이 가장 긴 증가하는 부분 수열 시리즈가 있다.LIS (Longest Increasing Subsequence) 알고리즘은 가장 긴 증가하는 부분 수열을 찾는 문제를 해결하는 알고리즘으로 주어진 수열에서 순서를 유지하면서, 원소들이 증가하는 부분 수열 중 가장 긴 수열을 찾아내는 것을 목표로 한다. 만약 해당 알고리즘이 생소하다면 위 시리즈를 순서대로 풀어보는 것을 추천한다.알..
본 포스팅은 '데이터 품질'과 '데이터 다운타임'에 대해 설명하고, '데이터 품질'을 향상시키기 위한 방법들을 정리한 포스팅입니다. 1. 서론데이터는 오늘날의 비즈니스와 의사결정의 핵심 자원이라고 할 수 있다. 그러나 데이터의 품질 문제나 다운타임은 빈번하게 예기치 않은 오류와 혼란을 초래한다. 이 글에서는 데이터 품질과 다운타임이 무엇인지 알아보고, 데이터 품질 문제를 해결하고 다운타임을 줄이기 위한 주요 전략과 도구를 살펴보려고 한다. 데이터 엔지니어로 일하다보면 다음과 같은 상황을 마주할 때가 있다.👨💻 개발자: "쿼리 작업이 끝났습니다! 데이터 파이프라인도 다 구축했고요. 이제 필요한 데이터는 다 모인 거죠?"🧑💼 현업 부서 담당자: "어... 그런데 필요한 데이터가 누락된 것 같은데요..
이 글은 Spark의 Data Skew 문제를 해결하기 위해 시도했던 방법과 이후 Suffyan Asad님의 글을 기반으로 학습한 방법을 적용해 그 결과를 비교 및 분석한 포스팅입니다.한국어 번역 및 재구성에 대해 저자의 허락을 받았습니다.1. Introduction이번 포스팅은 Apache Spark에서 Data Skew를 감지하고 처리하는 방법에 대해 설명하며 다음의 주제에 대해 살펴본다.Data Skew란 무엇이고, Spark 작업의 성능에 어떤 영향을 미치는지, 특히 조인 작업의 데이터 스큐를 중심으로 설명한다.Spark UI를 사용하여 Data Skew 확인하는 방법최신 버전의 Spark에서 제공되는 기본 최적화 기능과 데이터 변경을 사용하여 Data skew를 처리하는 몇 가지 예제 Data ..