Measure Effectiveness of SMS Spam Detection Model Based on Machine Learning Techniques
Eng. Ahmed Hamed Osman*1 , Dr. Muhammad Badawi Al-Khalifa1
1 College of Computer Science and Information Technology | Mashreq University | Sudan
Abstract: With the increase in the use of mobile phones, the use of Short Message Service has increased exponentially. With the cost of text messages dropping, people started using them for promotional purposes and unethical activities. This led to a massive increase in spam and consequently the loss of personal and financial data. To prevent data loss, it is essential that spam is detected as quickly as possible. Thus, this paper aims to classify spam not only effectively but also in a short time using python. A dataset containing thousands of text messages containing natural messages (ham) and spam messages was used. Natural language processing techniques were used Multiomail Naive Bayes, Decision Tree and Random Forest are used through which we can classify the message type. After applying these algorithms, Random Forest algorithm got the best accuracy 0.99% in 0.15 second.
Keywords: Accuracy, Classification, Confusion Matrix, Dataset, ham, Natural Language Processing.
قياس فعالية نموذج اكتشاف الرسائل غير المرغوب فيها في خدمة الرسائل القصيرة
استناداً على تقنيات التعلم الآلي
م. احمد حامد عثمان*1, الدكتور / محمد بدوي الخليفة1
1 كلية علوم الحاسوب وتقانة المعلومات | جامعة المشرق | السودان
المستخلص: مع زيادة استخدام الهواتف المحمولة، زاد استخدام خدمة الرسائل القصيرة بشكل هائل أدى إلى انخفاض تكلفة الرسائل النصية، بدأ الناس في استخدامها لأغراض ترويجية وأنشطة غير أخلاقية. مما أدى ذلك أيضاً إلى زيادة هائلة في الرسائل العشوائية (Spam) وبالتالي يحصل فقدان البيانات الشخصية والمالية. ولمنع فقدان البيانات من الضروري اكتشاف الرسائل العشوائية في أسرع وقت ممكن. تهدف هذه الورقة إلى تصنيف الرسائل العشوائية ليس فقط بشكل فعال، ولكن أيضًا في وقت قصير ، كما انه يعد هذا البحث قابل للتطبيق في الدول الناطقة باللغة الإنجليزية او يتم ارسال الرسائل النصية فيها للمستخدمين باللغة الإنجليزية حتى يومنا هذا.
تم استخدام مجموعة بيانات تحتوي على آلاف الرسائل النصية التي تحتوي على رسائل نصية (Ham) ورسائل نصية عشوائية (Spam). تم استخدام تقنيات معالجة اللغة الطبيعية وخوارزميات تعلم الآلة (مصنف بايز الساذج(Naive Bayes ) وشجرة القرار((Decision Tre والغابة العشوائية Random Forest))) التي يمكننا من خلالها تصنيف نوع الرسالة. بعد تطبيق هذه الخوارزميات، حصلت خوارزمية Random Forest على أفضل دقة 0.99% في 0.15 ثواني.
الكلمات المفتاحية: الدقة، التصنيف، تعلم الآلة، مجموعة البيانات، عشوائية، معالجة اللغة الطبيعية.