コース概要

はじめに

  • クラウドコンピューティングとビッグデータソリューションの概要
  • Apache Hadoopの特徴とアーキテクチャの概要

Hadoopの設定

  • Hadoopクラスターの計画(オンプレミス、クラウドなど)
  • OSとHadoopディストリビューションの選択
  • リソース(ハードウェア、ネットワークなど)のプロビジョニング
  • ソフトウェアのダウンロードとインストール
  • クラスターの柔軟性を考慮したサイズ調整

HDFSの操作

  • Hadoop Distributed File System (HDFS)の理解
  • HDFSコマンドリファレンスの概要
  • HDFSへのアクセス
  • HDFSでの基本的なファイル操作
  • HDFSを補完するS3の使用

MapReduceの概要

  • MapReduceフレームワークにおけるデータフローの理解
  • Map、Shuffle、Sort、Reduceのプロセス
  • デモ:トップ給与の計算

YARNの操作

  • Hadoopにおけるリソース管理の理解
  • ResourceManager、NodeManager、Application Masterの使用
  • YARNでのジョブスケジューリング
  • 多数のノードとクラスターでのスケジューリング
  • デモ:ジョブスケジューリング

HadoopとSparkの統合

  • Spark用のストレージ設定(HDFS、Amazon S3、NoSQLなど)
  • Resilient Distributed Datasets (RDDs)の理解
  • RDDの作成
  • RDD変換の実装
  • デモ:映画タイトルのテキスト検索プログラムの実装

Hadoopクラスターの管理

  • Hadoopの監視
  • Hadoopクラスターのセキュリティ対策
  • ノードの追加と削除
  • パフォーマンスベンチマークの実行
  • Hadoopクラスターのチューニングによるパフォーマンス最適化
  • バックアップ、復旧、ビジネス継続性計画
  • 高可用性(HA)の確保

Hadoopクラスターのアップグレードと移行

  • ワークロード要件の評価
  • Hadoopのアップグレード
  • オンプレミスからクラウドへの移行とその逆
  • 障害からの復旧

トラブルシューティング

まとめと結論

要求

  • システム管理経験
  • Linuxコマンドラインの経験
  • ビッグデータ概念の理解

対象者

  • システム管理者
  • DBA
 35 時間

参加者の人数


参加者1人当たりの料金

お客様の声 (5)

今後のコース

関連カテゴリー