ايمان صالح عبيد، فاطمة عبدالستار عمارة، محمد خفاجي
المؤلفون بالإنجليزي
Eman S.Abead* , Mohamed H. Khafagy , Fatma A. Omara
الملخص العربي
تم تصميم نظام الملفات الموزعة Hadoop (HDFS) لتخزين مجموعات البيانات وتحليلها ونقلها وبثها بنطاق ترددي عالٍ إلى تطبيقات المستخدم. يعالج التسامح مع الخطأ باستخدام النسخ المتماثل للبيانات، حيث يتم نسخ كل كتلة بيانات وتخزينها في DataNodes متعددة. لذلك، يدعم HDFS الموثوقية والتوافر. يتم تنفيذ النسخ المتماثل لبيانات HDFS في Hadoop بطريقة متصلة والتي تستغرق الكثير من الوقت للنسخ المتماثل. وقد تم اقتراح أساليب أخرى لتحسين أداء نسخ البيانات في نظام Hadoop HDFS. وتقدم هذه الورقة التحليل الشامل والنظري لثلاثة أساليب نسخ HDFS موجودة؛ ال
ودفقها بنطاق ترددي عالٍ إلى تطبيقات المستخدم. HDFS هو أحد أشكال نظام ملفات Google (GFS). يعالج التسامح مع الخطأ باستخدام النسخ المتماثل للبيانات، حيث يتم نسخ كل كتلة بيانات وتخزينها على DataNodes متعددة. لذلك، يدعم HDFS الموثوقية والتوافر. يؤدي التنفيذ الحالي لـ HDFS في Hadoop إلى إجراء النسخ المتماثل بطريقة متواصلة تستغرق الكثير من الوقت للنسخ المتماثل. في هذا البحث، تم اقتراح تقنية بديلة لوضع النسخ المتماثلة بكفاءة، تسمى تقنية النسخ المتماثل البطيء. المبدأ الرئيسي لهذه التقنية هو أن العميل يسمح بكتابة كتلة إلى DataNode الأولى، والتي سترسل الإقرار مباشرة إلى العميل دون انتظار تلقي الإقرار من DataNodes الأخرى. تم تنفيذ التقنية المقترحة في نسختين؛ كسول وقابل لإعادة التشكيل كسول. تم إجراء التجربة لتقييم أداء تقنية النسخ المتماثل HDFS المقترحة باستخدام تقنية النسخ المتماثل الافتراضية وتقنيات النسخ المتماثل الموجودة؛ الموازي (البث) والمتوازي (الرئيسي/التابع) باستخدام معيار TestDFSIO. وفقا للنتائج التجريبية، فقد وجد أن إنتاجية الكتابة HDFS قد تم تحسينها بنسبة تصل إلى 15٪ في تقنية النسخ المقترحة.
الملخص الانجليزي
The Hadoop Distributed File System (HDFS) is designed to store, analysis, transfer massive data sets reliably,
and stream it at high bandwidth to the user applications. HDFS is a variant of the Google File System (GFS). It handles fault tolerance by using data replication, where each data block is replicated and stored on multiple DataNodes. Therefore, the HDFS supports reliability and availability. The existed implementation of the HDFS in Hadoop performs replication in a pipelined manner that takes much time for replication. In this paper, an lternative technique for efficient replica placement, called Lazy replication technique, has been proposed. The main principle of this technique is that, the client allows to write a block to the first DataNode, which will send acknowledgement directly to the client without waiting of receiving acknowledgement form other DataNodes. The proposed technique has been implemented into two versions; Lazy and Reconfigurable Lazy. The experiment has been performed to evaluate the performance of the proposed HDFS replication technique with the default pipelined replication technique and the existed replication techniques; parallel (Broadcast) and parallel (Master/Slave) using TestDFSIO benchmark. According to the experimental results, it is found that the HDFS write throughput has been improved up to 15% in the proposed replication technique.
تاريخ النشر
International Journal of Scientific & Engineering Research