عنوان المقالة:تأثير عالمات الترقيم على اسناد التأليف للنصوص العربية باستخدام أطوال متغيرة ألحرف grams-n Punctuation Marks Effect on Arabic Authorship Attribution Using a Variable Length of Character N-grams
سعاد ابراهيم الهرم | Souad Ibrahim Alharm | 380
- نوع النشر
- مجلة علمية
- المؤلفون بالعربي
- فاطمة سليمان هويدي 2 سعاد إبراهيم الهرم
- المؤلفون بالإنجليزي
- Fatma Howedi 1 * , Souad Alharm 2
- الملخص العربي
- تتمثل مشكلة اسناد التأليف Attribution Authorship) AA (في كيفية استخراج السمات )features )التمييزية التي من شأنها تساعد على تمثيل ومعرفة اسلوب الكتابة للمؤلف. تعتبر طريقة أحرف grams-n التقليدية من أكثر الطرق نجاحاً في تمثيل الخصائص األسلوبية للنصوص. تهدف هذه الدراسة الستخدام عالمات الترقيم ضمن أحرف grams-n كسمة أسلوبية إلسناد التأليف للنصوص العربية القصيرة، وذلك من أجل تحسين أداء 353 | African Journal of Advanced Pure and Applied Sciences (AJAPAS) مهمة االسناد واستكشاف إلى أي مدى يمكن أن تأثر هذه العالمات على تحسين دقة اسناد التأليف. بدءا grams-n ً من استخدام أطوال متغيرة ألحرف (grams5- and 4, 3, 2, (تم إجراء التجارب بشكل مستقل لكل طول من grams-n، مع عالمات الترقيم في بعض التجارب وبدون هذه العالمات في تجارب أخرى. كما تم تدريب ثالث خوارزميات تصنيف لتعلم اآللة وذلك لتعزيز أداء مهمة اسناد التأليف بشكل أفضل. أظهرت هذه الدراسة انه بإضافة عالمات الترقيم إلى أحرف grams-n فإن األحرف ذات األطوال grams5- و grams4- رفعت من أداء االسناد بشكل أكبر من األطوال ذات األحجام الصغيرة كما في حالتي grams2- و grams.3- كما أتبتث نتائج هذه الدراسة أنه باستخدام عالمات الترقيم ضمن أحرف grams-n مع أطوال متغيرة )n)، أظهرت فعالية كبيرة في تحسين دقة االسناد بنسبة ،%7.5 حيث ساعدت هذه الطريقة في الحصول على نسبة ا سناد عالية بلغت %93 من معدل القياس 1F( measure 1-F )للنصوص العربية. وبالتالي فإن عالمات الترقيم توفر معلومات إضافية ومزيداَ من المعرفة عن أسلوب كتابة المؤلف. وبذلك فإن هذه الطريقة التي تعتمد على تضمين عالمات الترقيم مع أحرف grams-n ذات األطوال المتغير تساهم بشكل كبير على تحسين أداء مهمة اسناد التأليف للنصوص العربية القصيرة. الكلمات المفتاحية: إسناد التأليف، تصنيف النصوص، عالمات الترقيم، أحرف grams-n،
- الملخص الانجليزي
- The problem of Authorship Attribution (AA) relies on distinguishing features to capture the writing style of the author. The models of character n-gram have been identified as the most successful features for representing the stylistic properties of a text. This study explores the use of punctuation marks within character n-grams as a feature representation of a document for Arabic AA of short texts. Starting from a variable length of character ngrams (2-, 3-, 4-, and 5-grams) used to generate feature vectors, the experiments were conducted independently for each feature condition, using Chi-squared selection method with varying feature set sizes. Different machine learning was trained to represent the probability of membership for certain authors. This study showed that by adding punctuation to the construction of character n-grams, the length of 5-grams and 4-grams enhanced the classification performance more than smaller lengths of 2-grams and 3-grams conditions. The results confirmed a high attribution effectiveness at 0.93% with Macro F1- measure for AA of short texts. This method yields an improvement in the performance of AA by 7.5% with Macro F1- measure that when punctuation marks are used within character n-grams. The punctuation therefore provides further insight into the writing style of the author. This study contributes in improving the attribution performance of the issue of text size for Arabic authorship attribution. Keywords: Authorship Attribution, Text classification, Punctuation marks, Character n-grams, Machine Learning.
- تاريخ النشر
- 17/12/2023
- الناشر
- African Journal of Advanced Pure and Applied Sciences (AJAPAS)
- رقم المجلد
- 2
- رقم العدد
- 4
- ISSN/ISBN
- 2957-644X
- الصفحات
- 352-359
- رابط الملف
- تحميل (0 مرات التحميل)
- رابط خارجي
- https://aaasjournals.com/index.php/ajapas/article/view/648/572
- الكلمات المفتاحية
- Keywords: Authorship Attribution, Text classification, Punctuation marks, Character n-grams, Machine Learning.