عنوان المقالة:طريقة هجينة للذاكرة طويلة المدى وبنى التشفير التلقائي لاكتشاف السخرية A Hybrid Method of Long Short-Term Memory and Auto-Encoder Architectures for Sarcasm Detection
احمد عادل نافع | Ahmed Adil Nafea | 3230
- Publication Type
- Journal
- Arabic Authors
- محمد ماهر العاني و نازليا عمر و احمد عادل نافع
- English Authors
- Mohammed M. AL-Ani1, Nazlia Omar and Ahmed Adil Nafea
- Abstract
- يعتبر كشف السخرية من أكثر المهام صعوبة في تحليل المشاعر وتطبيقات التنقيب عن الرأي في وسائل التواصل الاجتماعي. لذلك فإن تحديد السخرية أمر ضروري لاتخاذ قرار رأي عام جيد. هناك بعض الدراسات حول اكتشاف السخرية التي تطبق نموذج word2vec القياسي وأظهرت أداءً رائعًا في تحليل مستوى الكلمات. ومع ذلك ، بمجرد معالجة سلسلة من المصطلحات ، ينخفض الأداء. هذا لأن متوسط تضمين كل مصطلح في جملة للحصول على التضمين العام من شأنه أن يتجاهل التضمين المهم لبعض المصطلحات. أظهر LSTM تحسنًا كبيرًا من حيث تضمين المستند. ومع ذلك ، ضمن تصنيف LSTM يتطلب إضافة معلومات إضافية من أجل تصنيف الوثيقة بدقة إلى السخرية أم لا. تهدف هذه الدراسة إلى اقتراح تقنيتين تعتمدان على LSTM والتشفير التلقائي لتحسين اكتشاف السخرية. تم استخدام مجموعة بيانات معيارية في التجارب جنبًا إلى جنب مع العديد من عمليات المعالجة المسبقة التي تم تطبيقها. يتضمن ذلك إزالة كلمة التوقف ، والترميز وإزالة الأحرف الخاصة باستخدام LSTM والتي يمكن تمثيلها من خلال تكوين تضمين المستند واستخدام المصنف التلقائي للتشفير الذي تم تدريبه على LSTM المقترح. أظهرت النتائج أن LSTM المقترح مع التشفير التلقائي تفوق في الأداء على خط الأساس من خلال تحقيق 84٪ من قياس f لمجموعة البيانات. السبب الرئيسي وراء التفوق هو أن المشفر التلقائي المقترح يعالج دمج المستند كمدخل ويحاول إخراج نفس متجه التضمين. سيمكن هذا العمارة من تعلم التضمين المثير للاهتمام الذي له تأثير كبير على قطبية السخرية.
- Abstract
- Sarcasm detection is considered one of the most challenging tasks in sentiment analysis and opinion mining applications in the social media. Sarcasm identification is therefore essential for a good public opinion decision. There are some studies on sarcasm detection that apply standard word2vec model and have shown great performance with word-level analysis. However, once a sequence of terms is being tackled, the performance drops. This is because averaging the embedding of each term in a sentence to get the general embedding would discard the important embedding of some terms. LSTM showed significant improvement in terms of document embedding. However, within the classification LSTM requires adding additional information in order to precisely classify the document into sarcasm or not. This study aims to propose two technique based on LSTM and Auto-Encoder for improving the sarcasm detection. A benchmark dataset has been used in the experiments along with several pre-processing operations that have been applied. These include stop word removal, tokenization and special character removal with LSTM which can be represented by configuring the document embedding and using Auto-Encoder the classifier that was trained on the proposed LSTM. Results showed that the proposed LSTM with Auto-Encoder outperformed the baseline by achieving 84% of f-measure for the dataset. The main reason behind the superiority is that the proposed auto encoder is processing the document embedding as input and attempt to output the same embedding vector. This will enable the architecture to learn the interesting embedding that have significant impact on sarcasm polarity.
- Publication Date
- 11/1/2021
- Publisher
- Journal of Computer Science
- Volume No
- 17
- Issue No
- 11
- ISSN/ISBN
- 1549-3636
- DOI
- DOI: https://doi.org/10.3844/jcssp.2021.1093.1098
- Pages
- 1093-1098
- File Link
- تحميل (0 مرات التحميل)
- External Link
- https://thescipub.com/abstract/jcssp.2021.1093.1098
- Keywords
- Sarcasm Detection, Irony, LSTM, Auto-Encoder, Sentiment Analysis