یادگیری ماشینی توانایی رونویسی گفتار به زبان عربی را بهبود می بخشد

[ad_1]

با پیشرفت در پردازش گفتار و زبان طبیعی، امید این است که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. امروزه این امکان وجود دارد که از گجت خانگی خود بخواهید موسیقی پخش کند یا با یک فرمان صوتی که در حال حاضر در بسیاری از دستگاه ها موجود است، آن را باز کنید.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از زبان عربی صحبت می کنید که از منطقه ای به منطقه دیگر بسیار متفاوت است، که برخی از آنها متقابلاً غیرقابل درک هستند، پس این داستان دیگری است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شده‌اید.

این ساختارهای پیچیده احمد علی را برای یافتن راه حلی مجذوب کرد. او مهندس اصلی در گروه فناوری های زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر، و بنیانگذار ArabicSpeech، “جامعه ای که برای علم و فناوری گفتار عربی وجود دارد” است. “.

دفتر مرکزی بنیاد قطر

علی سال‌ها پیش زمانی که در IBM بود، مجذوب ایده صحبت کردن با ماشین‌ها، لوازم خانگی و وسایل بود. آیا می‌توانیم ماشینی بسازیم که قادر به درک لهجه‌های مختلف باشد – یک پزشک اطفال مصری برای خودکار کردن نسخه، یک معلم سوری برای کمک به بچه‌ها در یادگیری اصول اولیه درس‌هایشان، یا یک آشپز مراکشی که بهترین دستور پخت کوسکوس را توصیف می‌کند؟» ایالت ها. با این حال، الگوریتم‌هایی که این ماشین‌ها را نیرو می‌دهند، نمی‌توانند حدود 30 نوع زبان عربی را جستجو کنند، چه رسد به اینکه آنها را معنا کنند. در حال حاضر، بیشتر ابزارهای تشخیص گفتار فقط به زبان انگلیسی و چند زبان دیگر کار می کنند.

همه‌گیری ویروس کرونا باعث افزایش اتکای فزاینده به فناوری‌های صوتی شده است، که در آن روش‌های فناوری پردازش زبان طبیعی به مردم کمک می‌کند تا دستورالعمل‌های ماندن در خانه و اقدامات فاصله‌گذاری فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانه‌هایمان استفاده می‌کنیم، آینده برنامه‌های کاربردی بیشتری دارد.

میلیون‌ها نفر در سراسر جهان به دلیل دسترسی آزاد و مشارکت نامحدود از دوره‌های آنلاین باز گسترده (MOOCs) بهره می‌برند. تشخیص گفتار یکی از ویژگی‌های اصلی در MOOC است که به دانش‌آموزان این امکان را می‌دهد تا مناطق گفتاری خاصی را برای محتوای دوره جستجو کنند و ترجمه‌های زیرنویس را فعال کنند. فناوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در سالن های دانشگاه امکان پذیر می کند.

احمد علی، دانشگاه حمد بن کهلیفی

بر اساس مقاله اخیر در مجله Speech Technology، پیش‌بینی می‌شود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیون‌ها مصرف‌کننده و کسب‌وکار در سراسر جهان برای چیزی بیش از تعامل با دستگاه‌ها یا ماشین‌های خود به ربات‌های صوتی متکی هستند. همچنین برای بهبود خدمات مشتری، نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و فراگیری افراد مبتلا به اختلالات شنوایی، گفتاری یا حرکتی.

در مطالعه‌ای در سال 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرف‌کننده دستیار صوتی را به جای بازدید از مغازه‌ها یا شعب بانک‌ها انتخاب خواهند کرد. سهمی که به درستی می تواند افزایش یابد، با توجه به زندگی و تجارت داخلی و فیزیکی دور از دسترس که این بیماری همه گیر بیش از یک سال و نیم است که در سراسر جهان تحمیل کرده است.

با این وجود، این دستگاه ها قادر به تحویل به مناطق وسیعی از جهان نیستند. برای این 30 نوع زبان عربی و میلیون ها نفر، این فرصت بسیار از دست رفته است.

عربی برای ماشین آلات

ربات های صوتی انگلیسی یا فرانسوی صحبت از ایده آل نیستند. با این حال، آموزش ماشین‌ها برای درک زبان عربی به دلایل مختلفی دشوار است. در اینجا سه ​​چالش رایج شناخته شده وجود دارد:

  1. هیچ نشانه ای وجود ندارد. لهجه های عربی در زبان عامیانه به عنوان رایج ترین زبان هستند. بیشتر متن موجود غیرقابل توصیف است، به این معنی که فاقد لهجه هایی مانند حاد (´) یا سنگین (`) است که مقادیر صوتی حروف را نشان می دهد. بنابراین، تشخیص اینکه حروف صدادار به کجا می روند دشوار است.
  2. کمبود بودجه. فقدان داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها فاقد قوانین املای استاندارد شده ای هستند که نحوه نگارش یک زبان را تعیین می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و فشار. این منابع برای آموزش مدل های کامپیوتری بسیار مهم هستند و این واقعیت که تعداد بسیار کمی از آنها وجود دارد مانع از توسعه تشخیص گفتار در عربی می شود.
  3. پیچیدگی مورفولوژیکی عربی زبانان اغلب کدها را تغییر می دهند. به عنوان مثال، در مناطقی که توسط فرانسوی ها مستعمره شده اند – شمال آفریقا، مراکش، الجزایر و تونس – گویش ها حاوی بسیاری از کلمات فرانسوی عاریه ای هستند. در نتیجه، تعداد زیادی واژه به اصطلاح خارج از واژگان وجود دارد که فناوری‌های تشخیص گفتار نمی‌توانند آن‌ها را درک کنند، زیرا آنها کلمات عربی نیستند.

علی می گوید: «اما میدان با سرعت رعد و برق حرکت می کند. این تلاش مشترک بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی پروژه ArabicSpeech را اجرا می کند که هدف آن ترکیب ترجمه های عربی با گویش های بومی هر منطقه است. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها از مرزها پیروی نمی کنند، می تواند به اندازه یک گویش در هر شهر ریزدانه باشد. به عنوان مثال، یک زبان مادری از مصر می تواند گویش اسکندریه خود را از هموطن خود از اسوان (1000 کیلومتر روی نقشه) تشخیص دهد.

ساختن آینده ای با فناوری پیشرفته برای همه

در این مرحله، ماشین‌ها تقریباً به اندازه رونوشت‌های انسان دقیق هستند، تا حد زیادی به لطف پیشرفت‌ها در شبکه‌های عصبی عمیق، زیرشاخه‌ای از یادگیری ماشینی در هوش مصنوعی که بر الگوریتم‌های الهام‌گرفته از عملکرد بیولوژیکی و عملکردی مغز انسان متکی است. با این حال، تا همین اواخر، تشخیص گفتار کمی هک شده بود. فناوری دارای تاریخچه ای از ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و زبان مدل سازی است. همه ماژول ها به طور جداگانه آموزش داده شوند. اخیراً، دانشمندان مدل‌هایی را آموزش دادند که ویژگی‌های صوتی را مستقیماً به رونویسی متن تبدیل می‌کنند و به طور بالقوه همه قسمت‌ها را برای کار نهایی بهینه می‌کنند.

علی رغم این پیشرفت ها، علی هنوز نمی تواند دستورات صوتی اکثر دستگاه ها را به زبان عربی مادری خود ارائه دهد. او می‌گوید: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از دستگاه‌های لهجه‌ام صحبت کنم. منظورم این است که اکنون دستگاهی دارم که انگلیسی من را می‌فهمد، اما هنوز به تشخیص ماشینی گفتار عربی در بسیاری از گویش‌ها نرسیده است.»

این موضوع کار علی است که در اولین تبدیل کننده برای شناخت گفتار عربی و لهجه های آن به اوج خود رسید. یکی که به عملکرد بی نظیری دست یافته است. این فناوری که QCRI Advanced Transcription System نام دارد، در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.

دلایل متعددی وجود دارد که علی و تیمش در ساخت این موتورهای گفتاری موفق بوده اند. او ابتدا می گوید: «در همه لهجه ها به منابع نیاز است. ما باید منابع را جمع کنیم تا بتوانیم مدل را آموزش دهیم.” پیشرفت در محاسبات به این معنی است که یادگیری ماشینی فشرده محاسباتی اکنون روی یک پردازنده گرافیکی انجام می شود که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی می گوید، “ما معماری عالی، ماژول های خوب و داده هایی داریم که واقعیت را نشان می دهد.”

محققان QCRI و Kanari AI اخیراً مدل‌هایی ساخته‌اند که می‌توانند بین افراد در اخبار تلویزیون عرب برابری کنند. این سیستم تأثیر افزودن زیرنویس به گزارش‌های روزانه الجزیر را نشان می‌دهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، مطالعات نشان داده اند که HER عربی بسیار بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املای استاندارد در عربی گویش، می تواند به 10 درصد برسد. به لطف آخرین پیشرفت‌ها در یادگیری عمیق و معماری جامع، موتور تشخیص گفتار عربی در پیام‌های پخش شده بهتر از سخنرانان بومی عمل می‌کند.

در حالی که به نظر می رسد تشخیص گفتار در زبان عربی مدرن به خوبی کار می کند، محققان QCRI و Kanari AI مشغول آزمایش محدودیت های پردازش گویش و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، مراقبت از گویش چیزی است که ما برای درک دستیاران صوتی خود به آن نیاز داریم.

این محتوا توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط سردبیران MIT Technology Review نوشته نشده است.

[ad_2]

Nylah Rasmussen

قادر به تایپ با دستکش بوکس نیست. گیک الکل. دانشجوی بی عذرخواهی ایجاد کننده. کاوشگر بسیار جذاب تلویزیون نینجا. علاقه مند به وب معمولی معتاد آبجو

تعبیر خواب برف در بهار برای زن متاهل
تعبیر خواب ماه کامل ابن سیرین
چگونه بهترین پرینتر را انتخاب کنیم؟
دنیای جذاب تخته نرد: بازی کلاسیک استراتژی و شانس
راهنمایی برای خرید پرینتر
Unlocking the World of Money Exchanges
تماس با ما