Develop an algorithm to delete near-duplicate images in Hadoop

Hasan Ali Hasan

Ammar Ali Zakzouk

Faculty of Mechanical and Electrical Engineering || Albaath University || Syria

DOI PDF

The concept of near-duplicate images refers to images that are subjected to noise, that have been compressed, or whose resolution is reduced as a result of their transmission, and other images to which digital image operations are applied. The ideal storage system aims to optimize the storage space, by managing, structuring and organizing data in an efficient manner, so that the storage space is preserved including valuable and useful information, and we get rid of useless data. The space occupied by insignificant data is called wasted space, and this space increases with the increase of these files, resulting in a waste of storage space, which makes it difficult to manage storage space and organize data, which affects the overall system performance. Hadoop is used to store and process big data, and depends on branching in storing data, as the data is divided into parts (blocks), and these parts are distributed in computer devices, called these devices (Data Nodes). Researchers have developed techniques to get rid of fragments of duplicate data, in order to save storage space in the Hadoop system, but each node may contain unimportant files occupying part of this space, so we will present in this research a technique to delete the near-duplicate images stored within data nodes, using a Discrete Cosine Transform (DCT). Keywords: Digital Image processing, Image compression, Near-duplicate images, Hadoop, DCT.

 

تطوير خوارزمية لحذف الصور شبه المكرّرة في Hadoop

حسن علي حسن

عمار علي زقزوق

كلية الهندسة الميكانيكية والكهربائية || جامعة البعث || سوريا

يطلق مفهوم الصور شبه المكرّرة على الصور التي تتعرّض للضجيج، أو التي تمّ ضغطها، أو التي تنخفض دقّتها نتيجة إرسالها، وغير ذلك من الصور التي يطبّق عليها عمليّات الصورة الرقميّة. إنّ نظام التخزين المثالي يهدف للاستثمار الأمثل لمساحة التخزين، وذلك عن طريق إدارة وهيكلة وتنظيم البيانات بطريقة فعّالة، بحيث يتمّ المحافظة على مساحة التخزين متضمنةً معلومات قيّمة ومفيدة، والتخلّص من البيانات غير المفيدة. يسمّى الحيّز الذي تشغله البيانات غير المهمّة بالمساحة الضائعة، وتزداد هذه المساحة بزيادة هذه البيانات، فيحصل هدراً في مساحة التخزين، مما يصعّب من إدارة مساحة التخزين وتنظيم البيانات، الأمر الذي يؤثّر على أداء النظام بشكل عام. يستخدم Hadoop لتخزين ومعالجة البيانات الضخمة، ويعتمد التفرّع في تخزين البيانات، إذ يتم تقسيم البيانات إلى أجزاء (Blocks)، وتوزّع هذه الأجزاء في أجهزة حاسوبيّة، تسمّى هذه الأجهزة (Data Nodes). طوّر الباحثون تقنيّات للتخلّص من أجزاء البيانات المكرّرة، وذلك لتوفير مساحة تخزينيّة في نظام Hadoop، ولكن قد تحتوي كل عقدة حاسوبيّة على ملفّات غير مهمّة، فتشغل قسماً من هذه المساحة، لذلك سنقدّم في هذا البحث تقنيّة لحذف الصور شبه المكرّرة المخزّنة ضمن Data Nodes، وذلك باستخدام تحويل جيب التمام المتقطّع (Discrete Cosine Transform) DCT.  الكلمات المفتاحية: معالجة الصورة الرقميّة، ضغط الصورة، الصور شبه المكرّرة، Hadoop، تحويل جيب التمام المتقطّع.

==> أرسل بحثك <==