Azure HDInsight は、Hadoop コンポーネントのクラウド ディストリビューションです。 Azure HDInsight を使用すると、大量のデータを簡単、高速、コスト効率よく処理できます。 この記事では、オンプレミスの Apache Hadoop エコシステム デプロイを Azure HDInsight に移行するためのベスト プラクティスについて説明します。
セレブルはあなたのために何ができるでしょうか?
当社は、ベスト プラクティスと体系的な方法論に従って、企業が従来のビッグ データ ワークロードをオンプレミスから Azure クラウド ネイティブ HDInsights に移行することを加速します。
当社の付加価値の一部をご紹介します
- サーバーレス データ レイクに移行する必要があるすべてのワークロードに対して、明確な影響評価と移行パスを提供します。
- 安全なクラスター上でも高速データ移行
- ダウンタイムのない、拡張性の高いライブ増分および完全移行
- 移行前および移行後に活用できる包括的な詳細評価レポート
- Azure クラウド上のターゲット テクノロジーへのワークロードとオーケストレーションの自動移行。
- 必要に応じてバックアップおよび災害復旧ソリューションを確立する
Hive メタストア
メタストアにはテーブル/ビュー/データの情報全体が保持されているため、メタストアの移行は非常に重要です。
Azure HDInsights では、カスタム外部メタストアを使用することをお勧めします。 外部メタストアの使用
- 複数の Spark アプリケーション (セッション) が同時にアクセスできます
- 実行のたびに「ANALYZE TABLE」を実行せずに、単一の Spark アプリケーションでテーブル統計を使用できるようにする
- コンピューティング リソースとメタデータを分離する
- 簡単なアップグレードとビッグ データ フレームワークの新しいリリースとの統合
- カスタム メタストアのバックアップを定期的に自動化する
メタストアの移行には 2 つのオプションが利用可能です
- カスタムスクリプト
- DBレプリケーションツール
カスタム スクリプトは管理が難しく、増分変更の実装も複雑ですが、私たちの方法論では DB レプリケーション ツールを使用し、オンプレミスの Hive Metastore DB と HDInsights Metastore DB の間でデータベース レプリケーションをセットアップします。
ストレージの移行
データの移行には時間がかかる場合があるため、データ移動の全体時間を見積もるという観点から、オンプレミスの HDFS から Azure クラウドへのデータの移行は大幅に並行する必要があります。
それ以来、Azure Hdinsght はコンピューティングから分離されたストレージを提供します。 ストレージはコンピューティングと同じ場所に配置する必要はなく、Azure ストレージ、Azure Data Lake Storage、またはその両方に配置できます。 コンピューティングから分離されたストレージを使用する利点は次のとおりです。
- ストレージとコンピューティングを個別にスケーリングする
- コスト削減
- クラスタ間でのデータ共有
- データ保護とセキュリティの向上
Azure BLOB と Azure Data Lake Storage の間では、データの保存に Azure Data Lake Storage Gen2 を使用することをお勧めします。ADLS Gen2 は、関連するすべてのビッグ データ ワークロードのデータの中央リポジトリになります。 ADLS Gen2 は、データを保存するためだけに設計されたものではなく、それ以上の機能を備えています。
ADLS Gen2 の利点
- Hadoop と互換性があるため、データの移行もシームレスです
- POSIX 権限 (データ レベルのセキュリティ管理用)
- ビッグデータ分析用に Hadoop/Spark に最適化されたドライバー
- ストレージをコンピューティングから分離
ADLS Gen2 は Hadoop と互換性があるため、データを現状のままでスケーラブルに移行するには、DistCP を使用することをお勧めします。
ワークロードの移行
Azure では、最新のアプリ開発者のニーズに合わせて、独自エンジンとオープンソース エンジンにわたるフルマネージド リレーショナル データベース、NoSQL データベース、インメモリ データベースの選択肢を提供しています。 HDInsight は、ワークロードのニーズに合わせてさまざまな Azure データ サービスを補完します。
例: Azure Data Factory を使用すると、CRON ジョブや他のオープンソース ワークフロー スケジューラーを使用するよりも、ワークロードのオーケストレーションがシームレスで簡単になります。
以下は当社が推奨するサービスマッピングです。
- 応答時間が改善された対話型 Hive クエリ用の LLAP クラスター
- impala ベースのクエリを LLAP クエリに置き換えます。
- ADFを使用したオーケストレーション
- ADLS/WASBSへのデータストレージ
- RBAC およびアクセス ポリシーのレンジャー
安全
Enterprise Security Package (ESP) は、Azure HDInsight クラスターでのマルチユーザー アクセスを提供します。 ESP を備えた HDInsight クラスターはドメインに接続されます。この接続により、ドメイン ユーザーは自分のドメイン資格情報を使用してクラスターで認証し、ビッグ データ ジョブを実行できるようになります。
セキュリティ パッケージは、既存の Ranger アクセス ポリシーをドメイン資格情報にマッピングするのに役立ちます。また、ドメインが Azure Active Directory の一部となるため、ユーザー アクセスの管理と監視がより簡単になります。
Ranger ポリシーを Azure HDInsight に移行する自動方法を設計しました。私たちのユーティリティは、それを達成するために 3 つの簡単な手順に従います。
- オンプレミスの Ranger ポリシーを XML ファイルにエクスポートする
- XSLT などのツールを使用して、オンプレミス固有の HDFS ベースのパスを WASB/ADLS に変換します
- HDInsight で実行されている Ranger にポリシーをインポートします。