最近、Power BI では、Power BI データフローを使用してビジネス アナリストがセルフサービスでデータを準備できるようになりました。 Power BI データフローは、多数のトランザクション データ ソースおよび観察データ ソースからデータを取り込み、結果をクレンジング、変換、強化、図式化、保持できます。 データフローは変成的であり、自動的に更新でき、チェーンして強力なデータ準備パイプラインを作成できます。 さらに、データとデータフロー定義の両方を含む、Azure Data Lake Storage (ADLS) Gen2 へのデータフローの保存のサポート。 データフローを Azure Data Lake Storage Gen2 に保存することで、Power BI を使用するビジネス アナリストは、Azure Data Services を使用するデータ エンジニアやデータ サイエンティストと共同作業できるようになります。
おそらく、Power BI データフローがデータを Common Data Model (CDM) フォルダーに保存することはすでにご存じでしょう。 しかし、これは実際には何を意味するのでしょうか?
CDM はメタデータ システムです
Common Data Model は、データをわかりやすい形式にフェデレーションし、複数のアプリと展開にわたって構造的およびセマンティックな一貫性を適用することにより、データ管理とアプリケーション開発を簡素化するメタデータ システムです。
CDM 標準エンティティ スキーマ
Microsoft は SAP および Adobe と協力して Open Data Initiative を設立し、さまざまなドメインにわたる標準エンティティの定義と導入を促進し、アプリケーションやツールがエンタープライズ データ レイクを通じてデータを共有しやすくします。
したがって、Microsoft とそのパートナーは、標準化された拡張可能なデータ スキーマを備えた Common Data Model を公開しました。 組み込みスキーマのコレクションには、エンティティ、属性、セマンティック メタデータ、および関係が含まれます。 スキーマは、アカウントやキャンペーンなどの一般的に使用される概念とアクティビティを表し、データの作成、集計、分析を簡素化します。
CDM フォルダーは、CDM メタデータを使用するデータ ストレージです。
CDM フォルダー (Azure Data Lake Gen2 のフォルダー) には、個別の標準化されたメタデータと自己記述データが続きます。 これらのフォルダーは、メタデータの検出と、データ プロデューサーとデータ コンシューマー間の相互運用性を容易にします。
CDM フォルダーには、model.json ファイル内のメタデータが含まれています。 このメタデータは CDM メタデータ形式に準拠しており、CDM の操作方法を知っている任意のクライアント アプリケーションまたはコードで読み取ることができます。
標準エンティティを使用する必要はありません
常に標準データ/スキーマを保存する必要はありません。 CDM エンティティ内のデータは標準エンティティ スキーマにマップできますが、ほとんどのエンティティではカスタム スキーマを作成します。 CDM または CDM フォルダーには、標準スキーマの使用を必要とするものは何もありません。
すべてのエンティティとデータフローのアクセス制御を把握する
これらのデータフロー/CDM フォルダーは Azure Data Lake (ADLS) Gen2 に保存されるため、ADLS Gen2 の RBAC と ACL を使用してアクセス管理レイヤーを実現できます。
CDM はシームレスで簡単な統合により、アプリケーションとデータ ソースを相互に分解するのに役立ちます。 そのため、CDM で構築されたレポートと並行して、具体的な目的でレポート/ダッシュボードを構築することができ、データ ソースが異なる同様のシナリオに簡単に組み込むことができます。
Azure DataServices の CDM を有効にする
データ エンジニアは、Azure Data Factory、Azure Databricks、Azure HDInsights を使用して、CDM フォルダーのデータと企業全体のデータを組み合わせて、Azure SQL Data Warehouse に履歴的に正確で厳選された企業全体のデータ ビューを作成できます。 Azure Data Service によって処理されたデータはいつでも新しい CDM フォルダーに書き戻すことができ、Azure で作成された分析情報に Power BI やその他の CDM 対応アプリやツールからアクセスできるようになります。 同じ CDM フォルダーを使用して、機械学習や人工知能などの高度な分析を実行できます。
Azure Data Services は CDM (Data Services によって管理される場合は外部 DataFlow とも呼ばれます) をサポートしているため、Power BI の役割はデータのコンシューマーに縮小されます。 Power BI は外部データフローの更新を担当しませんが、データフローは他のデータフローと同様に PBIX ファイルによって使用できます。 データフロー出力を使用するユーザー エクスペリエンスが変わらないため、これは優れています。
データ レイクが重要なデータ プラットフォーム アーキテクチャの一部であるこのようなシナリオでは、外部データフローは企業 BI とマネージド セルフサービス BI 要件のバランスをとるのに役立ちます。