بررسی قابلیت تازه زیر نویس خودکار در اندروید 10
با معرفی اندروید 10 بد نیست به ویژگیهای منحصر به فرد آن همچون زیر نویس خودکار اشاره کنیم.این ویژگی که لازمه آن دسترسی به اینترنت نمیباشد سبب شده تا کارکرد آن را بررسی کنیم.در ادامه به بررسی عملکرد آن خواهیم پرداخت.
هر چند ناشنویان و کم شنوایان به زیر نویس نیاز دارند، اما وجود آن برای مردم هم بدون فایده نیست مثل تماشای ویدئوهای بی صدا در قطار،هنگام خواب کودکان و در جلسات و مواردی مانند آن بسیار مفید و کمک کننده هست.مطالعه صورت گرفته توسط محققان نشان میدهد زمان مورد استفاده یک کاربر عادی برای تماشای فیلم در زمان خواندن زیرنویس 40 درصد بیشتر میشود.در حال حاضر زیر نویس به صورت یکپارچه در میان برنامهها و حتی در درون آنها پشتیبانی نمیشود.به همین دلیل در حجم قابل توجهی از جمله وبلاگهای پخش ویدئو زنده،ویدئوهای محلی،پادکستها،پیامهای صوتی و رسانههای اجتماعی نمیتوان از زیر نویس استفاده کرد.
قابلیت تازه نفس اندروید 10 با نام Live Caption، مهم ترینهای اندروید میباشد که با نیرو گرفتن از شاخهی کاربردپذیر هوش مصنوعی، یعنی یادگیری ماشین برای تولید زیر نویس انواع ویدئوهای تحت وب و محلی در گوشیهای هوشمند استفاده میشود.تولید زیرنویس با استفاده از اطلاعات محلی خود گوشی و به صورت آنی، بدون احتیاج به منابع آنلاین صورت میگیرد که نتیجه آن حریم خصوصی امن تر و سرعت دادن به تولید زیر نویس است. در خبر تازه منتشر شدهی گوگل نحوهی عملکرد این ویژگی جدید با استفاده از مدلهای یادگیری ماشین در سه مرحله توضیح داده شده است.
در وهلهی نخست مدلی بهصورت RNN-T، یا همان هدایت دنبالهی شبکه عصبی بازگشتی برای تشخیص گفتار وجود دارد. RNN، بهمعنیِ شبکهی عصبی بازگشتی یا مکرر، کلاسی از شبکههای عصبی مصنوعی است که در آن اتصالات بین، گرههایی از یک گراف جهتدار در امتداد یک دنبالهی زمانی هستند و این امر سبب میشود تا الگوریتم بتواند موقتا رفتار پویایی را به نمایش بگذارد. برخلاف شبکههای عصبی رو به جلو، شبکههای عصبی مکرر میتوانند از وضعیت درونی خود برای پردازش دنبالهی ورودیها استفاده کنند که این ویژگی آنها را برای مواردی نظیر تشخیص صوت، یا تشخیص دستنوشتههای غیربخشبندی شدهی متصل مناسب میکند.
برای انجام پیشبینیهای نگارشی نیز گوگل از شبکهی عصبی مکرر مبتنی بر متن استفاده میکند. سومین استفاده از مدلهای یادگیری ماشین شامل یک CNN، یا همان شبکهی عصبیِ پیچشی برای تحلیل رویدادهای صوتی نظیر آواز پرندگان، کف زدن افراد و موسیقی است. شبکههای عصبی پیچشی یا همگشتی ردهای از شبکههای عصبی مصنوعی ژرف هستند که معمولاً برای انجام تحلیلهای تصویری یا گفتاری در یادگیری ماشین استفاده میشوند. گوگل چنین عنوان کرد که این مدل از یادگیریِ ماشین، برگرفته شده از تلاش آنها در جهت ارتقاء نرمافزار accessibility Live Transcribe است. نرمافزار یادشده در سیستمعامل اندروید به کاربران اجازهی تبدیل گفتار به متن را میدهد. در نهایت Live Caption، در جهت ایجاد یک زیرنویس واحد، سیگنال دریافتی از سه مدل یادگیریِ ماشین شامل: RNN-T ،RNN و CNN را با یکدیگر ادغام میکند و زیرنویس بهصورت بیوقفه و درنتیجهی جریان صدا نمایش داده میشود.
گوگل میگوید اقدامات بسیاری برای کاهش توان مصرفی و همچنین بر طرف کردن نیازهای عملکردیِ Live Caption انجام شده است. برای اولینبار، موتور تشخیص خودکار صدا «ASR»، فقط در هنگام شناساییِ گفتار اجرا میشود و در پسزمینه غیرفعال خواهد بود. گوگل در وبلاگ خود مسئله را اینگونه تشریح میکند:
بهعنوان مثال زمانیکه صوت دریافتی بهعنوان موسیقی تشخیص دادهشود و جریان صدا عاری از گفتار باشد، برچسب MUSIC در صفحهنمایش داده شده و موتور تشخیص خودکار صدا بارگذاری نمیشود. ASR تنها زمانی در حافظه بارگذاری میشود که گفتار مجددا در جریان صدا به وجود آید.
گوگل همچنین از تکنیکهای هوش مصنوعی مانند هرس اتصال عصبی (neural connection pruning) که به وسیلهی کاهش اندازهی مدل گفتار انجام میگیرد نیز استفاده کرده و فرایند را بهصورت کلی بهینهسازی کرده است. به همین دلیل توان مصرفی در حدود ۵۰ درصد کاهش مییابد که همین امر سبب اجرای مداوم Live Caption میشود. با وجود تمامیِ بهینهسازیها در مصرف انرژی، این ویژگی در بیشتر حالات از جمله تشخیص جریانهای کوتاه صدا و مکالمات تلفنی با پهنای باند کمِ دامنهی صوتی و نیز در هنگام وجود سروصدا در پسزمینهی محتوای صوتی، از عملکرد خوبی برخوردار است. به زبان گوگل نگارش مبتنی بر متن، به ساختار معماری کوچکتر از فضای ابری به همراه قابلیت TensorFlowLite جهت کارکرد سخت افزار بهینه شده برای اجرای مداوم بر روی گوشی هوشمند نیاز دارد.
در این فرایند نتایج تشخیص گفتار چندین بار در ثانیه، به روز رسانی میشوند و برای کم کردن وابستگی به منابع، پیش بینیهای نگارشی بر دنبالهی متن، از تجریه و تحلیل آخرین جملههای شناسایی شده از گفتار بدست میآید.هماکنون Live Caption، در گوشیهای هوشمند گوگل پیکسل 4 میتوان استفاده کرد و گوگل اعلام کرده است که این ویژگی بهزودی برای پیکسلهای سری 3 و سایر دستگاهها نیز منتشر خواهد شد. این شرکت در جستجوی Live Caption در باقی زبان ها جهت هر چه کاربردپذیرتر کردن آن است. این شرکت تصمیم دارد ویژگی مذکور را برای پشتیبانی از محتوای دارای قابلیت multi-speaker، یا همان پخشکنندهی چندگانهی صدا ارتقا دهد.
منبع:ایتنا