021-22222711 info@pdnco.ir

اندروید 10 با ویژگی زیر نویس خودکار در خدمت کاربران

بررسی قابلیت تازه زیر نویس خودکار در اندروید 10

شرکت پایانه های داده ای نوین - خدمات انفورماتیک، سخت افزار و نرم افزار | اندروید 10 با ویژگی زیر نویس خودکار در خدمت کاربران

با معرفی اندروید 10 بد نیست به ویژگی‌های منحصر به فرد آن همچون زیر نویس خودکار اشاره کنیم.این ویژگی که لازمه آن دسترسی به اینترنت نمی‌باشد سبب شده تا کارکرد آن را بررسی کنیم.در ادامه به بررسی عملکرد آن خواهیم پرداخت.

هر چند ناشنویان و کم شنوایان به زیر نویس نیاز دارند، اما وجود آن برای مردم هم بدون فایده نیست مثل تماشای ویدئو‌های بی صدا در قطار،هنگام خواب کودکان و در جلسات و مواردی مانند آن بسیار مفید و کمک کننده هست.مطالعه صورت گرفته توسط محققان نشان می‌دهد زمان مورد استفاده یک کاربر عادی برای تماشای فیلم در زمان خواندن زیرنویس 40 درصد بیشتر می‌شود.در حال حاضر زیر نویس به صورت یکپارچه در میان برنامه‌ها و حتی در درون آن‌‌ها پشتیبانی نمی‌شود.به همین دلیل در حجم قابل توجهی از جمله وبلاگ‌های پخش ویدئو زنده،ویدئو‌های محلی،پادکست‌ها،پیام‌های صوتی و رسانه‌های اجتماعی نمی‌توان از زیر نویس استفاده کرد.

قابلیت تازه نفس اندروید 10 با نام Live Caption، مهم ترین‌های اندروید می‌باشد که با نیرو گرفتن از شاخه‌ی کاربردپذیر هوش مصنوعی، یعنی یادگیری ماشین برای تولید زیر نویس انواع ویدئو‌های تحت وب و محلی در گوشی‌های هوشمند استفاده می‌شود.تولید زیرنویس با استفاده از اطلاعات محلی خود گوشی و به صورت آنی، بدون احتیاج به منابع آنلاین صورت می‌گیرد که نتیجه آن حریم خصوصی امن تر و سرعت دادن به تولید زیر نویس است. در خبر تازه منتشر شده‌ی گوگل نحوه‌ی عملکرد این ویژگی جدید با استفاده از مدل‌های یادگیری ماشین در سه مرحله توضیح داده شده است.
 
در وهله‌ی نخست مدلی به‌صورت RNN-T، یا همان هدایت دنباله‌ی شبکه عصبی بازگشتی برای تشخیص گفتار وجود دارد. RNN، به‌معنیِ شبکه‌ی عصبی بازگشتی یا مکرر، کلاسی از شبکه‌های عصبی مصنوعی است که در آن اتصالات بین، گره‌هایی از یک گراف جهت‌دار در امتداد یک دنباله‌ی زمانی هستند و این امر سبب می‌شود تا الگوریتم بتواند موقتا رفتار پویایی را به نمایش بگذارد. برخلاف شبکه‌های عصبی رو به جلو، شبکه‌های عصبی مکرر می‌توانند از وضعیت درونی خود برای پردازش دنباله‌ی ورودی‌ها استفاده کنند که این ویژگی آن‌ها را برای مواردی نظیر تشخیص صوت، یا تشخیص دست‌نوشته‌های غیربخش‌بندی شده‌ی متصل مناسب می‌کند.
برای انجام پیش‌بینی‌های نگارشی نیز گوگل از شبکه‌ی عصبی مکرر مبتنی بر متن استفاده می‌کند. سومین استفاده از مدل‌های یادگیری ماشین شامل یک CNN، یا همان شبکه‌ی عصبیِ پیچشی برای تحلیل رویدادهای صوتی نظیر آواز پرندگان، کف زدن افراد و موسیقی است. شبکه‌های عصبی پیچشی یا همگشتی رده‌ای از شبکه‌های عصبی مصنوعی ژرف هستند که معمولاً برای انجام تحلیل‌های تصویری یا گفتاری در یادگیری ماشین استفاده می‌شوند. گوگل چنین عنوان کرد که این مدل از یادگیریِ ماشین، برگرفته شده از تلاش‌ آن‌ها در جهت ارتقاء نرم‌افزار accessibility Live Transcribe است. نرم‌افزار یادشده در سیستم‌عامل اندروید به کاربران اجازه‌ی تبدیل گفتار به متن را می‌دهد. در نهایت Live Caption، در جهت ایجاد یک زیرنویس واحد، سیگنال دریافتی از سه مدل یادگیریِ ماشین شامل: RNN-T ،RNN و CNN را با یکدیگر ادغام می‌کند و زیرنویس به‌صورت بی‌وقفه و درنتیجه‌ی جریان صدا نمایش داده می‌شود.
گوگل می‌گوید اقدامات بسیاری برای کاهش توان مصرفی و همچنین بر طرف کردن نیاز‌های عملکردیِ Live Caption انجام شده است. برای اولین‌بار، موتور تشخیص خودکار صدا «ASR»، فقط در هنگام شناساییِ گفتار اجرا می‌شود و در پس‌زمینه غیرفعال خواهد بود. گوگل در وبلاگ خود مسئله را این‌گونه تشریح می‌کند:
به‌عنوان مثال زمانی‌که صوت دریافتی به‌عنوان موسیقی تشخیص داده‌شود و جریان صدا عاری از گفتار باشد، برچسب MUSIC در صفحه‌نمایش داده شده و موتور تشخیص خودکار صدا بارگذاری نمی‌شود. ASR تنها زمانی در حافظه بارگذاری می‌شود که گفتار مجددا در جریان صدا به وجود آید.
گوگل همچنین از تکنیک‌‌‌‌های هوش مصنوعی مانند هرس اتصال عصبی (neural connection pruning) که به وسیله‌ی کاهش اندازه‌ی مدل گفتار انجام می‌گیرد نیز استفاده کرده‌‌ و فرایند را به‌صورت کلی بهینه‌سازی کرده است. به همین دلیل توان مصرفی در حدود ۵۰ درصد کاهش می‌یابد که همین امر سبب اجرای مداوم Live Caption می‌شود. با وجود تمامیِ بهینه‌سازی‌ها در مصرف انرژی، این ویژگی در بیشتر حالات از جمله تشخیص جریان‌های کوتاه صدا و مکالمات تلفنی با پهنای باند کمِ دامنه‌ی صوتی و نیز در هنگام وجود سروصدا در پس‌زمینه‌ی محتوای صوتی، از عملکرد خوبی برخوردار است.
 به زبان گوگل نگارش مبتنی بر متن، به ساختار معماری کوچک‌تر از فضای ابری به همراه قابلیت TensorFlowLite جهت کارکرد سخت افزار بهینه شده برای اجرای مداوم بر روی گوشی هوشمند نیاز دارد.


در این فرایند نتایج تشخیص گفتار چندین بار در ثانیه، به روز رسانی می‌شوند و برای کم کردن وابستگی به منابع، پیش بینی‌های نگارشی بر دنباله‌ی متن، از تجریه و تحلیل آخرین جمله‌های شناسایی شده از گفتار بدست می‌آید.هم‌اکنون Live Caption، در گوشی‌های هوشمند گوگل پیکسل 4  می‌توان استفاده کرد و گوگل اعلام کرده است که این ویژگی به‌زودی برای پیکسل‌های سری 3 و سایر دستگاه‌ها نیز منتشر خواهد‌ شد. این شرکت در جستجوی Live Caption در باقی زبان ها جهت هر چه کاربردپذیر‌تر کردن آن است. این شرکت تصمیم دارد ویژگی مذکور را برای پشتیبانی از محتوای دارای قابلیت multi-speaker، یا همان پخش‌کننده‌ی  چندگانه‌ی صدا ارتقا دهد.

منبع:ایتنا



مطالب مرتبط