Data Engineering/Spark

Data Engineering/Spark ·
해당 내용은 스파크 완벽 가이드를 개인적인 학습 내용과 함께 정리한 내용입니다. 스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의www.hanbit.co.kr  - spark-submit: 명령으로 운영용 애플리케이션 실행- Dataset: 타입 안정성(type-safe)을 제공하는 구조적 API- 구조적 스트리밍- 머신러닝과 고급 분석- RDD: 스파크의 저수준 API- SparkR3.1 운영용 애플리케이션 실행하기spark-submit 명령은 애플리케이션 코드를 클러스터에 전송해 실행시키는 역할을 한다.클러스터에 제출된 애플리케이션은 작업이 종료되거나..
Data Engineering/Spark ·
해당 내용은 스파크 완벽 가이드를 학습하며 개인적 이해를 바탕으로 정리한 내용입니다.잘못된 부분이 있다면 댓글로 알려주시면 감사하겠습니다! 스파크 완벽 가이드오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의www.hanbit.co.kr 2.1 스파크의 기본 아키텍처한 대의 컴퓨터만으로는 더 이상 대규모 정보를 연산할 만한 자원이나 성능을 가지지 못한다.설령, 연산을 할 수 있다고 하더라도 빅데이터를 처리하는 경우에는 많은 시간이 걸릴 수 밖에 없다. 컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 한다. 그렇다면 클러스터는 무엇인가?클러스터 ..
삐야오
'Data Engineering/Spark' 카테고리의 글 목록