تعزيز التعرف على الوجه عبر الأعمار باستخدام شبكات T2T-ViT وتحليل الانتباه متعدد الأحجام

عبر الأعمار

عبر الأعمار

Enhancing Cross-Age Facial Recognition with T2T-ViT Networks and Multi-Scale Attention Decomposition

Zakarya Mutahar Al-Haeer*, Li Mengxia

Yangtze University | 1 Nanhuan Road, Jingzhou | Hubei Province | 434023 | China

Abstract

Abstract: This paper presents a cross-age facial recognition model that integrates Convolutional Neural Networks (CNN) with Transformers. The model first utilizes a depth-separable T2T-ViT network to extract rich facial features. Subsequently, it employs a multi-scale attention decomposition module to nonlinearly decouple age and identity features. The feature decomposition is jointly constrained by mutual information minimization, cross-entropy,

and the Arcface function. The model achieves accuracy rates of 94.97%, 99.51%, and 95.81% on three benchmark datasets: FG-NET, CACD_VS, and CALFW, respectively, matching or surpassing the state-of-the-art (SOTA) performance. These results indicate that the proposed model can extract robust facial information and efficiently decouple features, achieving advanced recognition performance.

Keywords: Cross-Age; Transformer; ؤ network; Multi-Scale Attention

عبر الأعمار

تعزيز التعرف على الوجه عبر الأعمار باستخدام شبكات T2T-ViT وتحليل الانتباه متعدد الأحجام

زكريا مطهر الحائر*, لي منغ شيا

جامعة اليانغتسي | 1 طريق نانهوان | جينغتشو ، مقاطعة هوبى | 434023 | الصين

الملخص

المستخلص: يقدم هذا البحث نموذجًا للتعرف على الوجوه عبر الأعمار يدمج شبكات الالتفاف العصبية (CNN) مع المحولات (Transformers). يستخدم النموذج في البداية شبكة T2T-ViT القابلة للفصل بالعمق لاستخراج ميزات الوجه الغنية. بعد ذلك، يستخدم وحدة تحليل الانتباه متعددة الأحجام لفك الترابط اللاخطي بين ميزات العمر والهوية.

يتم تقييد تحليل الميزات مشتركًا بواسطة تقليل المعلومات المتبادلة، والتقاطع الإنتروبي، ووظيفة Arcface. يحقق النموذج معدلات دقة تبلغ 94.97%، و99.51%، و95.81% على ثلاث مجموعات بيانات معيارية: FG-NET، وCACD_VS، وCALFW، على التوالي، متطابقة أو تفوق أداء الحالة الفنية (SOTA). تشير 

هذه النتائج إلى أن النموذج المقترح يمكنه استخراج معلومات وجهية قوية وفك الترابط بين الميزات بكفاءة، محققًا أداء تعرف متقدمًا.

الكلمات المفتاحية: عبر الأعمار؛ المحولات؛ شبكة T2T-ViT؛ الانتباه متعدد الأحجام.

عبر الأعمار