[صفحه اصلی ]    
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش و اطلاعیه دفاعیه ها::
امور فرهنگی::
امور پژوهشی::
اخبار و رویدادهای دانشکده::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
تماس با ما::
::
ورود به سایت دروس
دانشجویان روزانه و پردیس
دانشجویان مرکز آموزش الکترونیکی
..
اطلاعیه ها
 اطلاعیه های آموزشی
..
فراخوان ها
فراخوان های همکاری با صنعت و سازمان ها
..
دفاعیه‌ها

دفاعیه های دکتری


دفاعیه های کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: زمن فاضل جبر ::
 | تاریخ ارسال: 1404/6/29 | 
دانشجو زمن جبر دانشجوی دکتری، دکتر ناصر مزینی مورخ۱۴۰۴/۰۶/۳۰ساعت: ۱۴ الی ۱۷ از رساله دکتری خود با عنوان "  Arabic Speech Recognition from Visual Cue Using Deep Learning " دفاع خواهند نمود. 
 

ارائه ­دهنده:

زمن فاضل جبر

  استاد راهنما:


دکتر ناصر مزینی
استاد مشاور: دکتر اعتمادی



  هیات داوران:

دکترمینائی
 دکترمحمدی
 دکترصامتی

  دکتر زنیالی


 زمان ۳۰ شهریورماه ماه ۱۴۰۴

  ساعت:۱۴ الی ۱۷
 

مکان:  اتاق دفاع طبقه دوم

 

Abstract


Visual speech recognition (VSR), or lip-reading, is crucial in human communication and speech understanding. Lip-reading is a challenging task that requires deep learning models to achieve high accuracy. The researchers introduced many deep learning models using Deep Neural Networks (DNNs) with letters, digits, words, and sentences for other languages, but not Arabic. The main reason for the low number of lip-reading studies in Arabic is the unavailability of a large-scale dataset that can be used to train a DNN.
The work in this thesis contributes to automatic Arabic lip-reading at the word and sentence levels using DNN with visual cues only. We attempted to find a solution to the problem of lacking a large-scale Arabic dataset for training a DNN model.  To this end, we propose an end-to-end Arabic lip-reading model that can be trained on a limited dataset, which combines a Visual module consisting of a multi-layer Convolutional Neural Network (CNN) and a Temporal module comprised of Gated Recurrent Unit (GRU) and soft-max layers, taking into account the balance between the size of the dataset and the number of model parameters. To train this model, we created a limited Arabic dataset comprising ۲۰ words spoken by ۴۰ native Arabic speakers. At the word level, our proposed method is evaluated on ۱) our dataset, where we obtained an accuracy equal to ۸۳.۰۲%; ۲) the Dweik et al. dataset, where we obtained an improvement rate of ≈ ۳% on the result recorded by their work. In addition, we employed the Visual module for person identification using the viseme image and obtained a high-performance result.
 At the sentence level, we modified the same end-to-end model to address the problem from two perspectives: first, as a classification problem, and second, as a sequence prediction problem. The modification is only applied to the Temporal module, while the Visual model remains unchanged. In the classification problem, the Temporal module consists of a stack of GRUs and a fully connected layer. In the sequence prediction problem, the Temporal module is the encoder-decoder network; the encoder consists of three GRU layers, while the decoder consists of two GRU layers with an attention mechanism. To train the end-to-end model, we collected a sentence-level dataset for the Arabic language, comprising ۵۵ sentences with ۱۳۹ unique words uttered by ۴۰ individuals, including ۲۸ declarative sentences, ۲۰ interrogative sentences, and ۷ request sentences. This dataset is the largest sentence-level Arabic language dataset addressing lip-reading problems. We made this dataset involve all ۲۸ phonemes in Arabic; this attribute is only in our dataset and is missing in all previous works for the Arabic language.
For the sentence classification problem, the end-to-end model was first applied to our dataset, yielding recognition accuracies of ۹۰.۴۵% for person-dependent and ۷۱.۵۳% for person-independent experiments. Then, it was used in the BlidAVS۱۰ dataset, and an accuracy of ۸۳.۰۹ was obtained for the person-independent experiment. For the sequence prediction problem, the end-to-end model was applied to our dataset, yielding an ۸۰.۵۱% Word Error Rate (WER).

 

دفعات مشاهده: 279 بار   |   دفعات چاپ: 49 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: زمن فاضل جبر ::
 | تاریخ ارسال: 1404/6/29 | 
دانشجو زمن جبر دانشجوی دکتری، دکتر ناصر مزینی مورخ۱۴۰۴/۰۶/۲۹ساعت: ۱۴ الی ۱۷ از رساله دکتری خود با عنوان "  Arabic Speech Recognition from Visual Cue Using Deep Learning " دفاع خواهند نمود. 
 

ارائه ­دهنده:

زمن فاضل جبر

  استاد راهنما:


دکتر ناصر مزینی
استاد مشاور: دکتر اعتمادی



  هیات داوران:

دکترمینائی
 دکترمحمدی
 دکترصامتی

  دکتر زنیالی

 زمان ۲۹ شهریورماه ماه ۱۴۰۴

  ساعت:۱۴ الی ۱۷
 

مکان:  اتاق دفاع طبقه دوم

 

Abstract


Visual speech recognition (VSR), or lip-reading, is crucial in human communication and speech understanding. Lip-reading is a challenging task that requires deep learning models to achieve high accuracy. The researchers introduced many deep learning models using Deep Neural Networks (DNNs) with letters, digits, words, and sentences for other languages, but not Arabic. The main reason for the low number of lip-reading studies in Arabic is the unavailability of a large-scale dataset that can be used to train a DNN.
The work in this thesis contributes to automatic Arabic lip-reading at the word and sentence levels using DNN with visual cues only. We attempted to find a solution to the problem of lacking a large-scale Arabic dataset for training a DNN model.  To this end, we propose an end-to-end Arabic lip-reading model that can be trained on a limited dataset, which combines a Visual module consisting of a multi-layer Convolutional Neural Network (CNN) and a Temporal module comprised of Gated Recurrent Unit (GRU) and soft-max layers, taking into account the balance between the size of the dataset and the number of model parameters. To train this model, we created a limited Arabic dataset comprising ۲۰ words spoken by ۴۰ native Arabic speakers. At the word level, our proposed method is evaluated on ۱) our dataset, where we obtained an accuracy equal to ۸۳.۰۲%; ۲) the Dweik et al. dataset, where we obtained an improvement rate of ≈ ۳% on the result recorded by their work. In addition, we employed the Visual module for person identification using the viseme image and obtained a high-performance result.
 At the sentence level, we modified the same end-to-end model to address the problem from two perspectives: first, as a classification problem, and second, as a sequence prediction problem. The modification is only applied to the Temporal module, while the Visual model remains unchanged. In the classification problem, the Temporal module consists of a stack of GRUs and a fully connected layer. In the sequence prediction problem, the Temporal module is the encoder-decoder network; the encoder consists of three GRU layers, while the decoder consists of two GRU layers with an attention mechanism. To train the end-to-end model, we collected a sentence-level dataset for the Arabic language, comprising ۵۵ sentences with ۱۳۹ unique words uttered by ۴۰ individuals, including ۲۸ declarative sentences, ۲۰ interrogative sentences, and ۷ request sentences. This dataset is the largest sentence-level Arabic language dataset addressing lip-reading problems. We made this dataset involve all ۲۸ phonemes in Arabic; this attribute is only in our dataset and is missing in all previous works for the Arabic language.
For the sentence classification problem, the end-to-end model was first applied to our dataset, yielding recognition accuracies of ۹۰.۴۵% for person-dependent and ۷۱.۵۳% for person-independent experiments. Then, it was used in the BlidAVS۱۰ dataset, and an accuracy of ۸۳.۰۹ was obtained for the person-independent experiment. For the sequence prediction problem, the end-to-end model was applied to our dataset, yielding an ۸۰.۵۱% Word Error Rate (WER).

 

دفعات مشاهده: 286 بار   |   دفعات چاپ: 64 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: مرجان کرامتی ::
 | تاریخ ارسال: 1404/3/25 | 
دانشجو مرجان کرامتی دانشجوی دکتری، دکتر ناصر مزینی مورخ۱۴۰۴/۰۴/۰۲ساعت:  ۱۶:۰۰ از رساله دکتری خود با عنوان " جانمایی کنترلگرها در شبکه هوشمند برق نرم افزار محور با استفاده از سیستم های چندعاملی" دفاع خواهند نمود. 
دفعات مشاهده: 2029 بار   |   دفعات چاپ: 277 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: حدیث بشیری ::
 | تاریخ ارسال: 1404/2/16 | 
دانشجو حدیث بشیری دانشجوی دکتری، دکتر حسن نادری مورخ :   تاریخ ۱۴۰۴/۰۲/۲۴  ساعت:  ۱۲:۳۰ از رساله دکتری خود با عنوان " تشخیص محبوبیت رویداد بر اساس تحلیل داده‌های شبکه‌های اجتماعی برخط" دفاع خواهند نمود. 

دفعات مشاهده: 4947 بار   |   دفعات چاپ: 785 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
::  اکرم کلائی ::
 | تاریخ ارسال: 1403/12/14 | 
دانشجو اکرم کلائی دانشجوی دکتری، دکتر سعید پارسا  مورخ :   تاریخ  ۱۸/۱۲/  ۱۴۰۳ ساعت:  ۱۱:۰۰ صبح از رساله دکتری خود با عنوان "تحلیل دامنه و تأثیر آن بر بهبود آزمون‌پذیری و شرح‌پذیری سیستم‌های سایبر- فیزیکی مبتنی بر یادگیری ماشین " دفاع خواهند نمود. 
دفعات مشاهده: 2510 بار   |   دفعات چاپ: 335 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
::  آرمان سان احمدی ::
 | تاریخ ارسال: 1403/8/1 | 
دانشجو آرمان سان احمدی دانشجوی دکتر محمد عبداللهی ازگمی مورخ :  ۱۴۰۳/۱۱/۰۱ ساعت : ۱۶:۳۰ از رساله دکتری خود با عنوان "مدل‌سازی صوری و ارزیابی کمّی ویژگی‌های کیفی اینترنت اشیاء مبتنی بر شبکه‌های پتری تصادفی " دفاع خواهند نمود. 
دفعات مشاهده: 3013 بار   |   دفعات چاپ: 441 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: محمد حاجی زاده صفار ::
 | تاریخ ارسال: 1403/8/1 | 
دانشجو محمد حاجی زاده صفار دانشجوی دکتر عادل ترکمان رحمانی مورخ :  ۱۴۰۳/۱۱/۰۸   ساعت:  ۸:۰۰ صبح از رساله دکتری خود با عنوان "تشخیص بی‌درنگ اشیا در ویدئو بر روی دستگاه‌های توکار با استفاده از شبکه‌های عصبی عمیق " دفاع خواهند نمود. 
دفعات مشاهده: 2138 بار   |   دفعات چاپ: 380 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: سیدمهدی شریعت زاده ::
 | تاریخ ارسال: 1403/6/24 | 

دانشجو سیدمهدی شریعت زاده دانشجوی  دکتر محمود فتحی مورخ  ۱۴۰۳/۰۶/۲۸ ساعت :۱۳  از رساله دکتری خود با عنوان "جستجوی معماری عصبی کارآمد در شبکه‌ها‌ی عصبی پیچشی عمیق برای کاربردهای بینایی ماشینی" دفاع خواهند نمود. 
دفعات مشاهده: 4314 بار   |   دفعات چاپ: 619 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
>
:: سایر مطالب این بخش: ::
:: راضیه زال - 1403/6/18 -
:: عبدالله علی السلامی - 1403/6/18 -
:: رحمن عمیری - 1403/2/24 -
:: مرضیه پندی - 1403/2/2 -
:: مریم سرخی - 1402/12/21 -
:: یعرب عبدالله - 1402/11/29 -
:: زهرا رشیدی - 1402/8/17 -
:: حجت‌اله اسماعیلی - 1402/6/27 -
:: مرتضی ذاکری نصرآبادی - 1402/6/22 -
:: پریا دربانی - 1402/6/18 -
:: سمیه کاشی - 1402/4/20 -
:: زهرا جلالیان - 1401/8/22 -
:: بشری پیشگو - 1401/8/21 -
:: علی اصغر داودآبادی - 1401/7/17 -
:: محبوبه ریاحی مدوار - 1400/12/4 -
:: راضیه روستائی - 1400/11/3 -
:: مهران شتابی - 1400/10/26 -
:: عاطفه پاکزاد - 1400/9/17 -
:: مجید عسگری بیدهندی - 1400/9/3 -
:: محمد شیری - 1400/7/26 -
:: کاوه کدخدا - 1400/7/26 -
:: کاوه کدخدا - 1400/7/26 -
:: احسان علیرضایی - 1400/6/30 -
:: مریم آموزگار - 1400/4/30 -
:: محمدامین مهرعلیان - 1400/1/30 -
:: احمد ملکیان بروجنی - 1399/12/13 -
:: علی متقی - 1399/12/5 -
:: محمد مهدی طالبی - 1399/11/12 -
:: محمد شاهوردی - 1399/11/7 -
:: محمد طاهری فرد- ۱۳۹۹/۰۹/۱۹ - 1399/9/17 -
:: میثم آهنگران- ۱۳۹۹/۰۹/۰۵ - 1399/9/3 -
:: جلسه دفاعیه از رساله دکتری - 1399/7/8 -
:: جلسه دفاعیه از رساله دکتری - 1399/7/5 -
:: جلسه دفاعیه از رساله دکتری - 1399/6/31 -
:: جلسه دفاعیه از رساله دکتری - 1399/3/21 -
:: جلسه دفاعیه از رساله دکتری - 1399/3/11 -
:: جلسه دفاعیه از رساله دکتری - 1399/2/10 -
:: جلسه دفاعیه از رساله دکتری - 1398/11/14 -
:: جلسه دفاعیه از رساله دکتری - 1398/11/7 -
:: جلسه دفاعیه از رساله دکتری - 1398/6/24 -
:: جلسه دفاعیه از رساله دکتری - 1398/2/17 -
:: جلسه دفاعیه از رساله دکتری - 1398/2/4 -
:: جلسه دفاعیه از رساله دکتری - 1397/9/18 -
:: جلسه دفاعیه از رساله دکتری - 1397/8/27 -
:: جلسه دفاعیه از رساله دکتری - 1397/8/23 -
:: جلسه دفاعیه از رساله دکتری - 1397/6/11 -
:: جلسه دفاعیه از رساله دکتری - 1397/5/6 -
:: جلسه دفاعیه از رساله دکتری - 1396/10/5 -
:: جلسه دفاعیه از رساله دکتری - 1396/2/23 -
data
Persian site map - English site map - Created in 0.22 seconds with 90 queries by YEKTAWEB 4719