عنوان المقالة:دراسة مقارنة بين أساليب النسخ الاحتياطي لنظام الملف الموزع Hadoop A Comparative Study of HDFS Replication Approaches
ايمان صالح علي عبدالنبي عبيد | Eyman Saleh Ali Abdanabi Abead | 499
نوع النشر
مقال علمي
المؤلفون بالعربي
ايمان صالح عبيد، فاطمة عبدالستار عمارة، محمد خفاجي
المؤلفون بالإنجليزي
Eman S.Abead* , Mohamed H. Khafagy , Fatma A. Omara
الملخص العربي
تم تصميم نظام الملفات الموزعة Hadoop (HDFS) لتخزين مجموعات البيانات وتحليلها ونقلها وبثها بنطاق ترددي عالٍ إلى تطبيقات المستخدم. يعالج التسامح مع الخطأ باستخدام النسخ المتماثل للبيانات، حيث يتم نسخ كل كتلة بيانات وتخزينها في DataNodes متعددة. لذلك، يدعم HDFS الموثوقية والتوافر. يتم تنفيذ النسخ المتماثل لبيانات HDFS في Hadoop بطريقة متصلة والتي تستغرق الكثير من الوقت للنسخ المتماثل. وقد تم اقتراح أساليب أخرى لتحسين أداء نسخ البيانات في نظام Hadoop HDFS. وتقدم هذه الورقة التحليل الشامل والنظري لثلاثة أساليب نسخ HDFS وجودة؛ النهج خط الأنابيب الافتراضي، والنهج الموازي (البث) والنهج الموازي (الرئيسي/التابع). وتصف الدراسة المواصفات الفنية والميزات والتخصص لكل نهج إلى جانب تطبيقاته. تم إجراء دراسة مقارنة لتقييم أداء هذه الأساليب باستخدام معيار TestDFSIO. وفقا للنتائج التجريبية وجد أن الأداء (أي زمن التنفيذ والإنتاجية) لأسلوب النسخ المتوازي (البث) والمتوازي (الرئيسي/التابع) يتفوق على النسخ المتماثل المتدفق الافتراضي. كما يلاحظ أن الصبيب يقل مع زيادة حجم الملف في المقاربات الثلاثة.
الملخص الانجليزي
The Hadoop Distributed File System (HDFS) is designed to store, analysis, transfers large scale of data sets, and stream it at high bandwidth to the user applications. It handles fault tolerance by using data replication, where each data block is replicated and stored in multiple DataNodes. Therefore, the HDFS supports reliability and availability. The data replication of the HDFS in Hadoop is implemented in a pipelined manner which takes much time for replication. Other approaches have been proposed to improve the performance of the data replication in THE Hadoop HDFS .The paper provides the comprehensive and theoretical analysis of three existed HDFS replication approaches; the default pipeline approach, parallel (Broadcast) approach and parallel (Master/Slave) approach. The study describes the technical specification, features, and specialization for each approach along with its applications. A comparative study has been performed to evaluate the performance of these approaches using TestDFSIO benchmark. According to the experimental results it is found that the performance (i.e., the execution time and throughput) of the parallel (Broadcast) replication approach and the parallel (Master/Slave) outperform the default pipelined replication. Also, it is noticed that the throughput is decreased with increasing the file size in the three approaches.
تاريخ النشر
05/08/2015
الناشر
International Journal in IT and Engineering
رقم المجلد
3
رقم العدد
8
ISSN/ISBN
2321-1776
الصفحات
5-11
رابط الملف
تحميل (0 مرات التحميل)
رابط خارجي
https://scholar.google.com/citations?user=sGLQzhoAAAAJ&hl=ar
الكلمات المفتاحية
Hadoop Distributed File System (HDFS), Pipelined, Replication factor, NameNode, DataNode, Client.
رجوع