- RDD
- 데이터프레임 및 데이터세트
- Lazy Evaluation
- 파이프라이닝
데이터 소스 및 형식
- 사용 가능한 형식 개요
- 성능에 미치는 영향
- 작은 파일 문제
스키마 추론
- 추론 비용
- 완화 전술
왜곡된 데이터 처리
- 편향 인식
- 완화 전술
촉매 및 텅스텐 개요
- 촉매 개요
- 텅스텐 개요
Spark Shuffle 완화
- 비정규화
- 브로드캐스트 조인
- 지도 측 작업
- 병합 조인 정렬
파티션을 나눈 테이블과 버킷 테이블
- 분할된 테이블
- 버킷 테이블
- 성능에 미치는 영향
조인 성능 향상
- 편향된 조인
- 버킷 조인
- 증분 조인
Pyspark 오버헤드 및 UDF
- Pyspark 오버헤드
- 스칼라 UDF
- Apache Arrow를 사용한 벡터 UDF
- 스칼라 UDF
재사용을 위한 데이터 캐싱
- 캐싱 옵션
- 성능에 미치는 영향
- 캐싱의 함정
워크로드 XM(WXM) 소개
- WXM 개요
- Spark 개발자를 위한 WXM
스파크 3.0의 새로운 기능은 무엇입니까?
- 적응형 셔플 파티션 수
- 편향 조인
- 정렬 병합 조인을 브로드캐스트 조인으로 변환
- 동적 파티션 정리
- 동적 병합 셔플 파티션
부록 A: 파티션 처리
부록 B: 방송
부록 C: 일정 예약