[ad_1]
با پیشرفت در پردازش گفتار و زبان طبیعی، امید این است که روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. امروزه این امکان وجود دارد که از گجت خانگی خود بخواهید موسیقی پخش کند یا با یک فرمان صوتی که در حال حاضر در بسیاری از دستگاه ها موجود است، آن را باز کنید.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر گویش دیگری از زبان عربی صحبت می کنید که از منطقه ای به منطقه دیگر بسیار متفاوت است، که برخی از آنها متقابلاً غیرقابل درک هستند، پس این داستان دیگری است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی مورفولوژیکی بالا باشد، ممکن است احساس کنید که از این زبان کنار گذاشته شدهاید.
این ساختارهای پیچیده احمد علی را برای یافتن راه حلی مجذوب کرد. او مهندس اصلی در گروه فناوری های زبان عربی در موسسه تحقیقات محاسباتی قطر (QCRI) – بخشی از دانشگاه حمد بن خلیفه قطر، و بنیانگذار ArabicSpeech، “جامعه ای که برای علم و فناوری گفتار عربی وجود دارد” است. “.
علی سالها پیش زمانی که در IBM بود، مجذوب ایده صحبت کردن با ماشینها، لوازم خانگی و وسایل بود. آیا میتوانیم ماشینی بسازیم که قادر به درک لهجههای مختلف باشد – یک پزشک اطفال مصری برای خودکار کردن نسخه، یک معلم سوری برای کمک به بچهها در یادگیری اصول اولیه درسهایشان، یا یک آشپز مراکشی که بهترین دستور پخت کوسکوس را توصیف میکند؟» ایالت ها. با این حال، الگوریتمهایی که این ماشینها را نیرو میدهند، نمیتوانند حدود 30 نوع زبان عربی را جستجو کنند، چه رسد به اینکه آنها را معنا کنند. در حال حاضر، بیشتر ابزارهای تشخیص گفتار فقط به زبان انگلیسی و چند زبان دیگر کار می کنند.
همهگیری ویروس کرونا باعث افزایش اتکای فزاینده به فناوریهای صوتی شده است، که در آن روشهای فناوری پردازش زبان طبیعی به مردم کمک میکند تا دستورالعملهای ماندن در خانه و اقدامات فاصلهگذاری فیزیکی را رعایت کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خرید تجارت الکترونیک و مدیریت خانههایمان استفاده میکنیم، آینده برنامههای کاربردی بیشتری دارد.
میلیونها نفر در سراسر جهان به دلیل دسترسی آزاد و مشارکت نامحدود از دورههای آنلاین باز گسترده (MOOCs) بهره میبرند. تشخیص گفتار یکی از ویژگیهای اصلی در MOOC است که به دانشآموزان این امکان را میدهد تا مناطق گفتاری خاصی را برای محتوای دوره جستجو کنند و ترجمههای زیرنویس را فعال کنند. فناوری گفتار دیجیتالی کردن سخنرانی ها را برای نمایش کلمات گفتاری به عنوان متن در سالن های دانشگاه امکان پذیر می کند.
بر اساس مقاله اخیر در مجله Speech Technology، پیشبینی میشود که بازار تشخیص صدا و گفتار تا سال 2025 به 26.8 میلیارد دلار برسد، زیرا میلیونها مصرفکننده و کسبوکار در سراسر جهان برای چیزی بیش از تعامل با دستگاهها یا ماشینهای خود به رباتهای صوتی متکی هستند. همچنین برای بهبود خدمات مشتری، نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و فراگیری افراد مبتلا به اختلالات شنوایی، گفتاری یا حرکتی.
در مطالعهای در سال 2019، Capgemini پیشبینی کرد که تا سال 2022، بیش از دو نفر از هر سه مصرفکننده دستیار صوتی را به جای بازدید از مغازهها یا شعب بانکها انتخاب خواهند کرد. سهمی که به درستی می تواند افزایش یابد، با توجه به زندگی و تجارت داخلی و فیزیکی دور از دسترس که این بیماری همه گیر بیش از یک سال و نیم است که در سراسر جهان تحمیل کرده است.
با این وجود، این دستگاه ها قادر به تحویل به مناطق وسیعی از جهان نیستند. برای این 30 نوع زبان عربی و میلیون ها نفر، این فرصت بسیار از دست رفته است.
عربی برای ماشین آلات
ربات های صوتی انگلیسی یا فرانسوی صحبت از ایده آل نیستند. با این حال، آموزش ماشینها برای درک زبان عربی به دلایل مختلفی دشوار است. در اینجا سه چالش رایج شناخته شده وجود دارد:
- هیچ نشانه ای وجود ندارد. لهجه های عربی در زبان عامیانه به عنوان رایج ترین زبان هستند. بیشتر متن موجود غیرقابل توصیف است، به این معنی که فاقد لهجه هایی مانند حاد (´) یا سنگین (`) است که مقادیر صوتی حروف را نشان می دهد. بنابراین، تشخیص اینکه حروف صدادار به کجا می روند دشوار است.
- کمبود بودجه. فقدان داده های برچسب گذاری شده برای گویش های مختلف عربی وجود دارد. در مجموع، آنها فاقد قوانین املای استاندارد شده ای هستند که نحوه نگارش یک زبان را تعیین می کند، از جمله هنجارها یا املا، خط فاصله، شکستن کلمات و فشار. این منابع برای آموزش مدل های کامپیوتری بسیار مهم هستند و این واقعیت که تعداد بسیار کمی از آنها وجود دارد مانع از توسعه تشخیص گفتار در عربی می شود.
- پیچیدگی مورفولوژیکی عربی زبانان اغلب کدها را تغییر می دهند. به عنوان مثال، در مناطقی که توسط فرانسوی ها مستعمره شده اند – شمال آفریقا، مراکش، الجزایر و تونس – گویش ها حاوی بسیاری از کلمات فرانسوی عاریه ای هستند. در نتیجه، تعداد زیادی واژه به اصطلاح خارج از واژگان وجود دارد که فناوریهای تشخیص گفتار نمیتوانند آنها را درک کنند، زیرا آنها کلمات عربی نیستند.
علی می گوید: «اما میدان با سرعت رعد و برق حرکت می کند. این تلاش مشترک بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی پروژه ArabicSpeech را اجرا می کند که هدف آن ترکیب ترجمه های عربی با گویش های بومی هر منطقه است. به عنوان مثال، گویش های عربی را می توان به چهار گویش منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، با توجه به اینکه لهجه ها از مرزها پیروی نمی کنند، می تواند به اندازه یک گویش در هر شهر ریزدانه باشد. به عنوان مثال، یک زبان مادری از مصر می تواند گویش اسکندریه خود را از هموطن خود از اسوان (1000 کیلومتر روی نقشه) تشخیص دهد.
ساختن آینده ای با فناوری پیشرفته برای همه
در این مرحله، ماشینها تقریباً به اندازه رونوشتهای انسان دقیق هستند، تا حد زیادی به لطف پیشرفتها در شبکههای عصبی عمیق، زیرشاخهای از یادگیری ماشینی در هوش مصنوعی که بر الگوریتمهای الهامگرفته از عملکرد بیولوژیکی و عملکردی مغز انسان متکی است. با این حال، تا همین اواخر، تشخیص گفتار کمی هک شده بود. فناوری دارای تاریخچه ای از ماژول های مختلف برای مدل سازی آکوستیک، ساخت واژگان تلفظ و زبان مدل سازی است. همه ماژول ها به طور جداگانه آموزش داده شوند. اخیراً، دانشمندان مدلهایی را آموزش دادند که ویژگیهای صوتی را مستقیماً به رونویسی متن تبدیل میکنند و به طور بالقوه همه قسمتها را برای کار نهایی بهینه میکنند.
علی رغم این پیشرفت ها، علی هنوز نمی تواند دستورات صوتی اکثر دستگاه ها را به زبان عربی مادری خود ارائه دهد. او میگوید: «سال 2021 است و من هنوز نمیتوانم با بسیاری از دستگاههای لهجهام صحبت کنم. منظورم این است که اکنون دستگاهی دارم که انگلیسی من را میفهمد، اما هنوز به تشخیص ماشینی گفتار عربی در بسیاری از گویشها نرسیده است.»
این موضوع کار علی است که در اولین تبدیل کننده برای شناخت گفتار عربی و لهجه های آن به اوج خود رسید. یکی که به عملکرد بی نظیری دست یافته است. این فناوری که QCRI Advanced Transcription System نام دارد، در حال حاضر توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.
دلایل متعددی وجود دارد که علی و تیمش در ساخت این موتورهای گفتاری موفق بوده اند. او ابتدا می گوید: «در همه لهجه ها به منابع نیاز است. ما باید منابع را جمع کنیم تا بتوانیم مدل را آموزش دهیم.” پیشرفت در محاسبات به این معنی است که یادگیری ماشینی فشرده محاسباتی اکنون روی یک پردازنده گرافیکی انجام می شود که می تواند به سرعت گرافیک های پیچیده را پردازش و نمایش دهد. همانطور که علی می گوید، “ما معماری عالی، ماژول های خوب و داده هایی داریم که واقعیت را نشان می دهد.”
محققان QCRI و Kanari AI اخیراً مدلهایی ساختهاند که میتوانند بین افراد در اخبار تلویزیون عرب برابری کنند. این سیستم تأثیر افزودن زیرنویس به گزارشهای روزانه الجزیر را نشان میدهد. در حالی که میزان خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، مطالعات نشان داده اند که HER عربی بسیار بالاتر است و به دلیل پیچیدگی صرفی زبان و فقدان قوانین املای استاندارد در عربی گویش، می تواند به 10 درصد برسد. به لطف آخرین پیشرفتها در یادگیری عمیق و معماری جامع، موتور تشخیص گفتار عربی در پیامهای پخش شده بهتر از سخنرانان بومی عمل میکند.
در حالی که به نظر می رسد تشخیص گفتار در زبان عربی مدرن به خوبی کار می کند، محققان QCRI و Kanari AI مشغول آزمایش محدودیت های پردازش گویش و دستیابی به نتایج عالی هستند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، مراقبت از گویش چیزی است که ما برای درک دستیاران صوتی خود به آن نیاز داریم.
این محتوا توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط سردبیران MIT Technology Review نوشته نشده است.
[ad_2]