이 글은 Spark의 Data Skew 문제를 해결하기 위해 시도했던 방법과 이후 Suffyan Asad님의 글을 기반으로 학습한 방법을 적용해 그 결과를 비교 및 분석한 포스팅입니다.한국어 번역 및 재구성에 대해 저자의 허락을 받았습니다.1. Introduction이번 포스팅은 Apache Spark에서 Data Skew를 감지하고 처리하는 방법에 대해 설명하며 다음의 주제에 대해 살펴본다.Data Skew란 무엇이고, Spark 작업의 성능에 어떤 영향을 미치는지, 특히 조인 작업의 데이터 스큐를 중심으로 설명한다.Spark UI를 사용하여 Data Skew 확인하는 방법최신 버전의 Spark에서 제공되는 기본 최적화 기능과 데이터 변경을 사용하여 Data skew를 처리하는 몇 가지 예제 Data ..
Spark
해당 내용은 스파크 완벽 가이드를 개인적인 학습 내용과 함께 정리한 내용입니다. 스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의www.hanbit.co.kr - spark-submit: 명령으로 운영용 애플리케이션 실행- Dataset: 타입 안정성(type-safe)을 제공하는 구조적 API- 구조적 스트리밍- 머신러닝과 고급 분석- RDD: 스파크의 저수준 API- SparkR3.1 운영용 애플리케이션 실행하기spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 한다.클러스터에 제출된 애플리케이션은 작업이 종료되거나..
해당 내용은 스파크 완벽 가이드를 학습하며 개인적 이해를 바탕으로 정리한 내용입니다.잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다! 스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의www.hanbit.co.kr 2.1 스파크의 기본 아키텍처한 대의 컴퓨터만으로는 더 이상 대규모 정보를 연산할 만한 자원이나 성능을 가지지 못한다.설령, 연산을 할 수 있다고 하더라도 빅데이터를 처리하는 경우에는 많은 시간이 걸릴 수 밖에 없다. 컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 한다. 그렇다면 클러스터는 무엇인가?클러스터 ..