コース概要

導入:

  • Hadoop 生態系における Apache Spark
  • Python、Scala の簡単な紹介

基本(理論):

  • アーキテクチャ
  • RDD
  • 変換とアクション
  • ステージ、タスク、依存関係

Databricks 環境を使用して基本を理解する(実践ワークショップ):

  • RDD API を使用した演習
  • 基本的なアクションと変換関数
  • PairRDD
  • 結合 (Join)
  • キャッシュ戦略
  • DataFrame API を使用した演習
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (ユーザー定義関数)
  • DataSet API の概要
  • ストリーミング

AWS 環境を使用して展開を理解する(実践ワークショップ):

  • AWS Glue の基本
  • AWS EMR と AWS Glue の違いの理解
  • 両環境での例のジョブ
  • 長所と短所の理解

追加:

  • Apache Airflow オーケストレーションの紹介

要求

プログラミングスキル (Python、Scala をお勧めします)

SQL の基本知識

 21 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (3)

今後のコース

関連カテゴリー