『Databricks ワークロードの最適化: Azure で Apache Spark のパワーを活用し、最新のビッグ データ ワークロードのパフォーマンスを最大化する』の著者は、Databricks で計算を高速化し、データを効果的に最大限に活用できると述べています。
会社としての Databricks について
Databricks はデータ + AI 企業です。 もともとは、Apache SparkTM、Delta Lake、MLflow の作成者によって 2013 年に設立されました。 Databricks は、データと AI のためのオープンで統合されたプラットフォームを提供するデータ ウェアハウスとデータ レイクの長所を組み合わせた、世界初のクラウド上のレイクハウス プラットフォームです。 同社の Delta Lake は、機械学習やその他のデータ サイエンス用途のデータ レイクに信頼性をもたらすオープンソース プロジェクトです。 2017 年に、同社は Azure Databricks 統合を使用した Microsoft Azure 上のファーストパーティ サービスとして発表されました。
プラットフォームとしての Databricks
Databricks は、データ サイエンティスト、データ エンジニア、データ アナリストに統合プラットフォームを提供します。 ユーザーが対話型でスケジュールされたデータ分析ワークロードを実行するための共同環境を提供します。
この記事では、Databricks と関連する最適化テクニックについて概要を説明します。 入り江になります
Azure Databricks: 概要
Azure Databricks は、Azure クラウド サービス プラットフォーム用に最適化されたデータ分析プラットフォームです。 Apache Spark の最新バージョンを提供し、ユーザーがオープンソース ライブラリとシームレスに統合できるようにします。 Azure ユーザーは、データ集約型アプリの開発に役立つ 3 つの環境 (Databricks SQL、Databricks Data Science & Engineering、Databricks Machine Learning) にアクセスできます。
Databricks SQL を使用すると、アナリストは使いやすいプラットフォームを使用して SQL クエリを実行できます。 一方、Databricks Data Science & Engineering では、データ エンジニア、科学者、機械学習エンジニア間のコラボレーションをさらに可能にする対話型ワークスペースを使用できます。 Databricks Machine Learning を使用すると、実験追跡用のマネージド サービスを組み込んだ、統合されたエンドツーエンドの機械学習環境を使用できます。
*追加のヒント: 環境を選択するには、Azure Databricks ワークスペースを起動し、サイドバーのペルソナ スイッチャーを効率的に使用します。
Databricks と関連する技術要件を確認する
Databricks は、世界で最も困難なデータ問題を解決するために、Apache Spark の作成者によって設立されました。 これは、Spark ベースの統合データ分析プラットフォームとして開始されました。 Databricks を導入する際には、次の点を考慮する必要があります。
- Spark の基礎: 巨大なデータセットを分析できる分散データ処理フレームワークです。 さらに、DataFrame、機械学習、グラフ処理、ストリーミング、Spark SQL で構成されます。
- Databricks: データ サイエンスとデータ エンジニアのための共同プラットフォームを提供します。 データ エンジニア、データ サイエンティスト、データ アナリスト、ビジネス インテリジェンス アナリストなど、あらゆる人にとって重要な情報が含まれています。
- デルタ レイク: 従来のデータ レイクをレイクハウスに変換するオープンソース プロジェクトとして Databricks によって立ち上げられました。
Azure Databricks ワークスペース
Databricks Workspace は、Apache Spark に基づく分析プラットフォームであり、Azure とさらに統合され、ワンクリックのセットアップ、合理化されたワークフロー、対話型のワークスペースを提供します。 ワークスペースにより、データ エンジニア、データ サイエンティスト、機械学習エンジニア間のコラボレーションが可能になります。
データブリック機械学習
これは、実験追跡、モデル トレーニング、機能開発、管理、機能とモデルの提供を含むマネージド サービスを組み込んだ、統合されたエンドツーエンドの機械学習プラットフォームです。 これに加えて、Databricks Machine Learning では次のことが可能になります。
- 手動または AutoML の両方でモデルをトレーニングします。
- MLflow 追跡を効率的に使用して、トレーニング パラメーターを追跡します。
- 特徴テーブルを作成してアクセスします。
- モデル レジストリを使用して、モデルを共有管理および提供します。
データブリック SQL
Databricks SQL を使用すると、クエリの待機時間と同時ユーザー数に基づいてサイズが異なるフルマネージド SQL エンドポイントで実行される、迅速なアドホック SQL クエリを実行できます。 すべてのワークプレイスは、ユーザーが使いやすいように事前に設定されています。 Databricks SQL を使用すると、エンタープライズ グレードのセキュリティ、Azure サービスとの統合、Power BI などを取得できます。
Databricks とその最適化について詳しく知りたいですか? 心配はいりません。ここでは、Databricks のキャリアを目指す人向けに詳細な知識を網羅した書籍を紹介します。
この本について:
Databricksワークロードの最適化は、Spark/Databricksの実用的な知識とデータエンジニアリングの原則に関する基本的な理解を持っているデータエンジニア、データサイエンティスト、クラウドアーキテクト向けに設計されています。 読者はPythonの実用的な知識を持っている必要があり、PysparkとSpark SQLでのSQLの経験は有益です
この本は次の章で構成されています。
- Databricksの発見
- Databricksでのバッチおよびリアルタイム処理
- Databricksでの機械学習とグラフ処理についての学習
- スパーククラスターの管理
- ビッグデータ分析
- Databricks Delta Lake
- スパークコア
- ケーススタディ
本のハイライト:
- Spark FundamentalsとThe Databricksプラットフォームを把握してください。
- Delta Lakeを使用したSpark DataFrame APIを使用してビッグデータを処理します。
- Databricksのグラフ処理を使用してデータを分析します。
- MLFLOWを使用して、DataBricksの機械学習ライフサイクルを管理します。
- ワークロードに適したクラスター構成を選択する方法をご覧ください。
- ファイルの圧縮とクラスタリング方法を探索して、デルタテーブルを調整します。
- Spark Jobsをスピードアップするための高度な最適化技術を発見します。
本から得られる利点:最終的には、スパークジョブをスピードアップし、データをより効率的に処理するために必要なツールキットを用意します。
もっと知りたい、今日のAmazonで本を予約注文してください。