ئارزو محمد مصطفى


النظرية والنظرة العامة لفهم التعلم الخاضع للإشراف (Supervised Machine Learning)

ئارزو محمد مصطفى | Arazo Mohammed Mustafa


11/25/2023 القراءات: 953  


جزء الاول:
النظرية والنظرة العامة لفهم التعلم الخاضع للإشراف (Supervised Machine Learning)
في هذه المقالة نتناول نظرة عامة رفيعة المستوى على خوارزميات الشائعة لتعلم الخاضع للإشراف (Supervised Machine Learning) وحيث يكون أساسا للمبتدئين.

الإشراف هو فرع من التعلم الآلي حيث يتعلم الكمبيوتر من مجموعة البيانات التي تحتوي على كل من المدخلات والمخرجات الصحيحة. يحاول العثور على خواص التطابق التي تربط المدخلات (x) بالمخرجات (y). ولتوضيح أكثر لنفترض ان لديك ابنة او ابن اخ او اخت وتحاول ان تعلمهم كيفية التعرف على الحيوانات المختلفة. سوف تظهر لهم بعض الصور (x) وتخبرهم باسم كل حيوان (y). وبعد فترة معينة، سيتعلمون الاختلافات وسيتمكنون من التعرف على الصورة الجديدة بشكل صحيح. هذا هو الحدس الأساسي وراء التعلم تحت الإشراف. قبل المضي قدمًا، دعونا نلقي نظرة أعمق على طريقة عملها من خلال شكل ادناه: -

صورة من قبل المؤلف
كيف يعمل التعلم الخاضع للإشراف؟
لنفترض أنك تريد إنشاء نموذج يمكنه التمييز بين صورتي القط والكلب بناءً على بعض الخصائص. يمكننا تقسيم العملية إلى المهام التالية:
1. جمع/اقتناء البيانات:
البيانات بمثابة الوقود لخوارزمية التعلم الآلي. وبالتالي، قد يتم جمعها من مصادر مختلفة ولكننا بحاجة للتأكد من أننا نجمع البيانات الصحيحة ذات الصلة باحتياجات العمل. يمكن أن تكون مصادر البيانات مواقع التجارة الإلكترونية، ووسائل التواصل الاجتماعي، وقواعد البيانات (MySQL، وOracle، وDB2، وغيرها الكثير)، وما إلى ذلك. ومن المهم جدًا تحديد المتغيرات المستقلة (X أو متغيرات الإدخال) والمتغير التابع (Y أو متغير الإخراج) بناءً على احتياجات العمل.
وبشكل العام عملية جمع البيانات تتضمن الخطوات التالية:
• تحديد مصادر مختلفة
• استخراج البيانات من مصادر مختلفة
• دمج البيانات من مصادر مختلفة لتكوين مجموعة البيانات المطلوبة لتدريب النموذج.

في تجربتنا نقوم بجمع مجموعة بيانات تحتوي على صور القط والكلب، وسيتم تصنيف كل صورة على أنها إما "قطة" أو "كلبة".

2. تجهيز البيانات
بمجرد جمع البيانات، من الضروري جدًا تنظيف البيانات ومعالجتها مسبقًا للحصول على نتائج دقيقة من نموذجنا. تحويل البيانات الأولية إلى تنسيق قابل للاستخدام هو أساس هذه الخطوة. انها مشتركة:
• معالجة القيمة المفقودة (Missing Value Treatment,)،
• التحقق من نوع البيانات غير الصحيح أو البيانات غير الصالحة ( Missing Value Treatment)،
• فحص القيم الخالية (Check Null Values.)
• مسح على السجلات المكررة (Deleting Duplicate Records)

3. تحليل البيانات الاستكشافية (EDA)
في هذه الخطوة، نستكشف البيانات بشكل أعمق لفهم البيانات بشكل أفضل بحيث يمكن توليد الرؤى بحيث يمكن معالجة الأسئلة التي لدينا. نحن نفهم كيفية توزيع البيانات، وتصور البيانات، وتحديد القيم المتطرفة إن وجدت، ومعالجة تلك القيم المتطرفة بتقنيات مختلفة، وتحليل الأنماط الموجودة في البيانات. تساعد الاشكال المختلفة مثل الرسم البياني، وBox Plot، وScatterplot على تصور البيانات.

فيما يلي الخطوات المطلوبة في تحليل البيانات الاستكشافية: -
• التصور (Visualization)
• تحليل احصائي (Statistical Analysis)
• العلاج القيم المتطرفة (Outlier Treatment)
• تحويل البيانات (Data Transformation)
• تحديد المتغيرات (X) أكثر اهمية (Feature Selection)
• تقسيم البيانات (Data Partitioning)
• موازنة مجموعات البيانات غير المتوازنة (Balancing Imbalanced Datasets)
إن الشرح التفصيلي لجميع خطوات تحليل البيانات الاستكشافية (EDA) ستكون أكثر وضوحًا عندما أقوم بتنفيذ الخطوات المذكورة أعلاه باستخدام مجموعة بيانات نموذجية في مدونتي التالية.
4. اختيار النموذج:
في هذه خطوة علينا اختيار المصنف المناسب لهذه المهمة والذي يُعرف باسم خوارزمية التعلم الآلي الخاضعة للإشراف. ويعتبر مثل اختيار النظارات المناسبة التي ستساعدك على الرؤية بشكل أفضل.
5. تدريب النموذج:
الآن، في هذه المرحلة تقوم بتغذية الخوارزمية بالصور المسماة أي معرف مسبقا بالقط والكلب. تنظر الخوارزمية إلى هذه الصور وتتعلم كيفية التعرف على الاختلافات، مثل اللون والشكل وحجم القط والكلب.
6. التقييم والاختبار:
للتحقق مما إذا كان النموذج الخاص بك يعمل بشكل صحيح، سنقوم بإدخال بعض الصور غير المرئية إليه ومقارنة التوقعات مع الصورة الفعلية.

أنواع التعلم الخاضع للإشراف
تنقسم التعلم الخاضع للإشراف إلى لحل مشكتين رئيسيتين هما:

1- مشكلة تصنيف (Classification)
في مهام التصنيف، الهدف الأساسي هو تعيين نقاط البيانات لفئات محددة من مجموعة من الفئات المنفصلة. عندما يكون هناك نتيجتان محتملتان فقط، مثل "نعم" أو "لا"، أو "مصاب " أو "غير مصاب"، أو "مقبولًا" أو "مرفوضًا"، يُشار إلى ذلك بالتصنيف الثنائي. ولكن عندما يكون هناك أكثر من فئتين أو صنفين، مثل تصنيف حيوانات بناءً على خصائصها الفريدة (على سبيل المثال، الثدييات، الطيور، الزواحف، البرمائيات، الأسماك ،الحشرات)، مثال أخر تصنيف المقالات حسب محتواها (الرياضة ، الصحة، سياسة ، التعليم، الجمال)يصبح ذلك مثالاً لمشكلة التصنيف المتعدد.

2- مشكلة الانحدار (Regression)
بالنسبة لمشاكل الانحدار، فإنك تحاول التنبؤ بقيمة عددية مستمرة. على سبيل المثال، قد تكون مهتمًا بالتنبؤ بأسعار الذهب في الاسواق بناءً على ظروف والأسعار السابق في الأسواق.


التعلم الآلي، استخراج البيانات، تجهيز البيانات


يجب تسجيل الدخول للمشاركة في اثراء الموضوع