قم بتسريع العمليات الحسابية وتحقيق أقصى استفادة من بياناتك بشكل فعال على Databricks، كما يقول مؤلف كتاب تحسين أعباء عمل Databricks: استغل قوة Apache Spark في Azure وحقق أقصى قدر من أداء أعباء عمل البيانات الضخمة الحديثة.
حول Databricks كشركة
Databricks هي شركة Data + AI. تأسست في الأصل عام 2013 على يد منشئي Apache SparkTM وDelta Lake وMLflow. Databricks هي أول منصة Lakehouse في العالم في السحابة تجمع بين أفضل مستودعات البيانات وبحيرات البيانات التي توفر منصة مفتوحة وموحدة للبيانات والذكاء الاصطناعي. يعد Delta Lake الخاص بالشركة مشروعًا مفتوح المصدر يعمل على تحقيق الموثوقية في بحيرات البيانات للتعلم الآلي إلى جانب استخدامات علوم البيانات الأخرى. في عام 2017، تم الإعلان عن الشركة كخدمة الطرف الأول على Microsoft Azure باستخدام تكامل Azure Databricks.
Databricks كمنصة
توفر Databricks منصة موحدة لعلماء البيانات ومهندسي البيانات ومحللي البيانات. فهو يوفر بيئة تعاونية للمستخدمين لتشغيل أعباء عمل تحليل البيانات التفاعلية والمجدولة.
في هذه المقالة، ستتعرف على نبذة مختصرة عن Databricks وتقنيات التحسين المرتبطة بها. سنكون كوف
Azure Databricks: مقدمة
Azure Databricks عبارة عن نظام أساسي لتحليل البيانات تم تحسينه لمنصة خدمات Azure السحابية. فهو يوفر أحدث إصدارات Apache Spark ويسمح للمستخدمين بالتكامل بسلاسة مع المكتبات مفتوحة المصدر. يحصل مستخدمو Azure على إمكانية الوصول إلى ثلاث بيئات تساعد في تطوير التطبيقات كثيفة البيانات: Databricks SQL، وDatabricks Data Science & Engineering، وDatabricks Machine Learning.
يتيح Databricks SQL للمحللين استخدام منصاته سهلة الاستخدام لتشغيل استعلامات SQL. على الجانب الآخر، يتيح لك Databricks Data Science & Engineering استخدام مساحة العمل التفاعلية التي تتيح المزيد من التعاون بين مهندسي البيانات والعلماء ومهندسي التعلم الآلي. يسمح التعلم الآلي لـ Databricks باستخدام بيئة تعلم آلي متكاملة وشاملة تتضمن خدمات مُدارة لتتبع التجارب.
*نصيحة إضافية: لتحديد بيئة ما، قم بتشغيل مساحة عمل Azure Databricks واستفد بشكل فعال من أداة تبديل الشخصية في الشريط الجانبي.
اكتشف Databricks والمتطلبات الفنية ذات الصلة
تم إنشاء Databricks بواسطة منشئي Apache Spark لحل أصعب مشكلات البيانات في العالم. تم إطلاقه كمنصة موحدة لتحليل البيانات تعتمد على Spark. أثناء تقديم Databricks، يجب مراعاة النقاط التالية:
- أساسيات Spark: إنه إطار معالجة بيانات موزع يمكنه تحليل مجموعات البيانات الضخمة. وهي تشتمل أيضًا على DataFrames، والتعلم الآلي، ومعالجة الرسوم البيانية، والتدفق، وSpark SQL.
- Databricks: يوفر نظامًا أساسيًا تعاونيًا لعلم البيانات ومهندسي البيانات. إنه يحتوي على شيء في المجموعة للجميع، أي مهندسي البيانات وعلماء البيانات ومحللي البيانات ومحللي ذكاء الأعمال.
- Delta Lake: تم إطلاقها بواسطة Databricks كمشروع مفتوح المصدر يحول بحيرة البيانات التقليدية إلى Lakehouse.
مساحة عمل Azure Databricks
Databricks Workspace عبارة عن منصة تحليلية تعتمد على Apache Spark والتي تم دمجها بشكل أكبر مع Azure لتوفير إعداد بنقرة واحدة وسير عمل مبسط ومساحة عمل تفاعلية. تتيح مساحة العمل التعاون بين مهندسي البيانات وعلماء البيانات ومهندسي التعلم الآلي.
التعلم الآلي لبنية البيانات
إنها منصة متكاملة للتعلم الآلي تتضمن خدمات مُدارة تتضمن تتبع التجارب والتدريب على النماذج وتطوير الميزات والإدارة وتقديم الميزات والنماذج. بالإضافة إلى ذلك، يتيح لك التعلم الآلي لـ Databricks القيام بما يلي:
- تدريب النماذج يدويًا أو AutoML.
- استخدم تتبع MLflow بكفاءة لتتبع معلمات التدريب.
- إنشاء والوصول إلى جداول الميزات.
- استخدم Model Registry لمشاركة النماذج في الإدارة والخدمة.
قواعد البيانات SQL
باستخدام Databricks SQL، يُسمح لك بتشغيل استعلامات SQL سريعة ومخصصة يتم تشغيلها على نقاط نهاية SQL مُدارة بالكامل ذات أحجام مختلفة بناءً على زمن استجابة الاستعلام وعدد المستخدمين المتزامنين. يتم تكوين جميع أماكن العمل مسبقًا لسهولة المستخدمين. يتيح لك Databricks SQL الحصول على ضمانات على مستوى المؤسسات، والتكامل مع Azure Services، وPower BI، وما إلى ذلك.
هل تريد معرفة كيفية معرفة المزيد عن Databricks وتحسينها؟ لا تقلق، فنحن هنا نقدم كتابًا يغطي المعرفة التفصيلية للطامحين في مهنة Databricks.
عن الكتاب:
تم تصميم تحسين أعباء عمل Databricks لمهندسي البيانات وعلماء البيانات ومهندسي السحابة الذين لديهم معرفة عملية بـ Spark/Databricks وبعض الفهم الأساسي لمبادئ هندسة البيانات. سيحتاج القراء إلى معرفة عملية بـ Python، وبعض الخبرة في SQL في PySpark وSpark SQL مفيدة
ويتكون هذا الكتاب من الفصول التالية:
- اكتشاف قوالب البيانات
- المعالجة المجمعة وفي الوقت الفعلي في Databricks
- التعرف على التعلم الآلي ومعالجة الرسوم البيانية في Databricks
- إدارة مجموعات سبارك
- تحليلات البيانات الضخمة
- Databricks بحيرة دلتا
- سبارك كور
- دراسات الحالة
أبرز الكتاب:
- تعرّف على أساسيات Spark ومنصة Databricks.
- قم بمعالجة البيانات الضخمة باستخدام Spark DataFrame API مع Delta Lake.
- تحليل البيانات باستخدام معالجة الرسم البياني في Databricks.
- استخدم MLflow لإدارة دورات حياة التعلم الآلي في Databricks.
- تعرف على كيفية اختيار تكوين المجموعة المناسب لأحمال العمل الخاصة بك.
- استكشف طرق ضغط الملفات وتجميعها لضبط جداول دلتا.
- اكتشف تقنيات التحسين المتقدمة لتسريع مهام Spark.
الفائدة التي ستحصل عليها من الكتاب: في النهاية، ستكون مستعدًا بمجموعة الأدوات اللازمة لتسريع مهام Spark ومعالجة بياناتك بكفاءة أكبر.
إذا كنت تريد معرفة المزيد، فاطلب كتابك مسبقًا على Amazon اليوم.