Azure HDInsight هو توزيع سحابي لمكونات Hadoop. يجعل Azure HDInsight من السهل والسريع والفعال من حيث التكلفة معالجة كميات هائلة من البيانات. سنناقش في هذه المقالة أفضل الممارسات لترحيل عمليات نشر النظام البيئي Apache Hadoop المحلي إلى Azure HDInsight.

ما الذي يمكن أن يفعله سيليبال لك؟

نحن نعمل على تسريع المؤسسات لترحيل أعباء عمل البيانات الضخمة التقليدية من HDInsights المحلية إلى سحابة Azure الأصلية باتباع أفضل الممارسات والمنهجيات المنهجية.

وهنا بعض من القيمة المضافة لدينا

  1. نحن نقدم تقييمًا واضحًا للتأثير ومسارًا للانتقال لجميع أحمال العمل التي يجب أن يتم ترحيلها إلى مستودع البيانات بدون خادم
  2. ترحيل البيانات بسرعة عالية عبر مجموعات آمنة حتى
  3. ترحيل مباشر متزايد وكامل وقابل للتطوير بشكل كبير دون أي توقف
  4. تقرير تقييم مفصل وشامل يمكن الاستفادة منه أثناء مرحلة ما قبل الهجرة وما بعد الهجرة
  5. عبء العمل الآلي وترحيل التنسيق لاستهداف التكنولوجيا على Azure Cloud.
  6. إنشاء حل النسخ الاحتياطي والتعافي من الكوارث كما هو مطلوب

Hive Metastore

يعد ترحيل metastore أمرًا مهمًا للغاية لأنه يحتوي على المعلومات الكاملة للجداول/طرق العرض/البيانات.

في Azure HDInsights، نوصي باستخدام مخزن تعريف خارجي مخصص. باستخدام metastore الخارجية

  1. يمكن لتطبيقات (جلسات) Spark المتعددة الوصول إليها بشكل متزامن
  2. السماح لتطبيق Spark واحد باستخدام إحصائيات الجدول دون تشغيل “ANALYZE TABLE” في كل عملية تنفيذ
  3. موارد حسابية منفصلة وMetadata
  4. ترقيات وتكامل سهل مع الإصدارات الجديدة من أطر عمل Big Data
  5. أتمتة النسخ الاحتياطي لـ Metastore المخصص بشكل دوري

لترحيل Metastore هناك خياران متاحان

  • البرامج النصية المخصصة
  • أداة النسخ المتماثل لقاعدة البيانات

من الصعب إدارة البرامج النصية المخصصة، كما أن تنفيذ التغييرات المتزايدة أمر معقد، ومع ذلك، تتبع منهجيتنا استخدام أداة النسخ المتماثل لقاعدة البيانات، حيث نقوم بإعداد النسخ المتماثل لقاعدة البيانات بين Hive Metastore DB وHDInsights Metastore DB داخل الشركة.

ترحيل التخزين

يمكن أن يستغرق ترحيل البيانات وقتًا طويلاً، وبالتالي يجب أن يكون ترحيل البيانات من HDFS المحلي إلى Azure Cloud متوازيًا بشكل كبير من حيث استنتاج الوقت الإجمالي لحركة البيانات.

منذ ذلك الحين، يوفر Azure Hdinsght مساحة تخزين منفصلة عن الحوسبة. لا يلزم أن يكون التخزين في موقع مشترك مع الحوسبة، ويمكن أن يكون إما في مخزن Azure أو Azure Data Lake Storage أو كليهما. مزايا استخدام فصل التخزين عن الحوسبة هي:

  1. توسيع نطاق التخزين والحساب بشكل منفصل
  2. خفض التكاليف
  3. تبادل البيانات عبر المجموعات
  4. تحسين حماية البيانات والأمن

بين Azure blob وAzure Data Lake Storage، نوصي باستخدام Azure Data Lake Storage Gen2 لتخزين البيانات. سيكون ADLS Gen2 هو المستودع المركزي للبيانات لجميع أحمال عمل البيانات الضخمة ذات الصلة. لم يتم تصميم ADLS Gen2 لتخزين البيانات فقط، بل هو أكثر من ذلك.

فوائد ADLS Gen2

  1. متوافق مع Hadoop، وبالتالي فإن ترحيل البيانات يكون سلسًا
  2. أذونات POSIX (لإدارة أمان مستوى البيانات)
  3. برنامج التشغيل الأمثل Hadoop/Spark لتحليلات البيانات الضخمة
  4. تخزين منفصل عن الحساب

نظرًا لأن ADLS Gen2 متوافق مع hadoop، لذلك نوصي باستخدام DistCP لترحيل البيانات كما هي وقابلة للتطوير.

هجرة أعباء العمل

يقدم Azure مجموعة مختارة من قواعد البيانات العلائقية وقواعد البيانات NoSQL والذاكرة المُدارة بالكامل، والتي تشمل المحركات الخاصة والمفتوحة المصدر، لتناسب احتياجات مطوري التطبيقات الحديثة. يكمل HDInsight خدمات بيانات Azure المختلفة لتناسب احتياجات عبء العمل.

على سبيل المثال: يصبح تنسيق عبء العمل سلسًا وأبسط باستخدام Azure Data Factory مقارنةً باستخدام وظائف CRON أو غيرها من برامج جدولة سير العمل مفتوحة المصدر

فيما يلي رسم خرائط الخدمة الموصى بها من قبلنا

  1. مجموعة LLAP لاستعلامات الخلية التفاعلية مع وقت استجابة محسّن
  2. استبدال الاستعلامات المستندة إلى إمبالا باستعلامات LLAP.
  3. التزامن باستخدام ADF
  4. تخزين البيانات على ADLS/WASBS
  5. Ranger لـ RBAC وسياسات الوصول

حماية

توفر حزمة Enterprise Security (ESP) وصولاً متعدد المستخدمين إلى مجموعات Azure HDInsight. ترتبط مجموعات HDInsight مع ESP بالمجال. يسمح هذا الاتصال لمستخدمي المجال باستخدام بيانات اعتماد المجال الخاصة بهم للمصادقة مع المجموعات وتشغيل مهام البيانات الضخمة.

تساعد حزمة الأمان في تعيين سياسات وصول Ranger الحالية باستخدام بيانات اعتماد المجال. وبما أن المجال سيكون جزءًا من Azure Active Directory، فإن إدارة ومراقبة وصول المستخدم تصبح أكثر بساطة.

لقد صممنا طريقة تلقائية لترحيل سياسات Ranger إلى Azure HDInsight. تتبع فائدتنا ثلاث خطوات بسيطة لتحقيق ذلك

  1. تصدير سياسات Ranger المحلية إلى ملفات XML
  2. قم بالتحويل على المسارات المستندة إلى HDFS الخاصة بالمباني إلى WASB/ADLS باستخدام أداة مثل XSLT
  3. قم باستيراد السياسات إلى Ranger الذي يعمل على HDInsight.

Write A Comment