مقال اليوم لشرح مفهوم مهم في مجال البيانات الضخمة – Big Data وهو أباتشي هادوب سوف نتعرف من خلال هذا المقال عليه وعلي إستخدامه وتاريخ نشأته.
ماهو أباتشي هدوب – Apache Hadoop؟
هو برنامج أو منصة برمجية مفتوحة المصدر مكتوبة بلغة الجافا لتخزين ومعالجة البيانات الضخمة – Big Data بشكل موزع مثل تخزين بيانات ضخمة على عدة أجهزة ومن ثم توزيع عملية المعالجة على هذه الأجهزة لتسريع نتيجة المعالجة.
وتتكون من مجموعة من الأدوات البرمجية مفتوحة المصدر – Open Source والتي تسهل استخدام شبكة من أجهزة الكمبيوتر لحل المشاكل التي تتضمن كميات كبيرة من البيانات.
وتوفر أيضا منصة اباتشي هادوب – Apache Hadoop إطار عمل برمجي framework للتخزين الموزع ومعالجة البيانات الضخمة باستخدام النموذج البرمجي MapReduce.
تم تصميم جميع الوحدات في هادوب – Hadoop بافتراض أن تعطل الأجهزة أمر وارد بشكل كبير ويجب معالجته تلقائيًا بواسطة ال Framework.
تاريخ نشأه أباتشي هادوب – Apache Hadoop:
أنشيء من قبل “دوغ كاتينغ” و “مايك كافاريلا” في عام 2005. وقد أسماه دوغ، الذي كان يعمل في ياهو في ذلك الوقت، تيمناً بالفيل اللعبة الخاص بابنه , عملية تطوير هدوب كانت نابعة في الأساس لدعم توزيع مشروع محرك البحث Nutch.
يتكون الكور – Core الخاص باباتشي هدوب – Apache Hadoop من :
- جزء تخزيني يُعرف باسم (Hadoop Distributed File System (HDFS.
- وجزء معالجة وهو نموذج برمجة MapReduce.
ويقوم اباتشي هدوب بتقسيم الملفات إلى كتل كبيرة وتوزيعها عبر ال Nodes في شكل Cluster والتي بدورها تنقل الشفرة إلى ال Nodes لكي تتم معالجة تلك البيانات في نفس الوقت بالتوازي.
يتكون إطار أباتشي هادوب الأساسي من:
- Hadoop Common ويحتوي على مكتبات وأدوات مساعدة تحتاجها وحدات هادوب الاخري.
- (Hadoop Distributed File System (HDFS.
- Hadoop YARN.
- Hadoop MapReduce.