ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

تکنولوژی

مایکروسافت نوعی تکنولوژی تبدیل کلام به متن نظیر کورتانا را برای توسعه دهندگان ارائه کرده است

روز گذشته مایکروسافت خبر داد که نسخه پیش نمایش خصوصی از سرویس تشخیص هوشمند بهینه خود موسوم به CRIS (برگرفته از سرواژه های Custom Recognition Intelligence Service ) را ارائه کرده که ابزاری با قابلیت ...

Maryam Mousavi
نوشته شده توسط Maryam Mousavi | ۲۴ آذر ۱۳۹۴ | ۱۹:۱۵

روز گذشته مایکروسافت خبر داد که نسخه پیش نمایش خصوصی از سرویس تشخیص هوشمند بهینه خود موسوم به CRIS (برگرفته از سرواژه های Custom Recognition Intelligence Service ) را ارائه کرده که ابزاری با قابلیت شخصی سازی بالاست و می تواند کارکردی هم سطح با سیری را در زمینه تبدیل کلام به متن به اپلیکیشن ها بیافزاید.

روز گذشته همچنین، این شرکت مستقر در ردموند نسخه های پیش نمایش عمومی برای دو API دیگر را ارائه کرد که به واسطه بهره گیری از نوعی تکنولوژی پیشرفته اش قابلیت تشخیص هویت فردی که در یک فایل صوتی صحبت می کند و آنچه در فایل های ویدئویی نمایش داده می شود را در اختیار توسعه دهندگان قرار می دهد.

در ادامه این مطلب با دیجیاتو همراه باشید.

همه این تکنولوژی ها در قالب پروژه ای تخت عنوان آکسفورد ارائه خواهند شد؛ طرحی که به توسعه دهندگان شخص ثالث امکان می دهد به هوش مصنوعی توسعه یافته توسط مایکروسافت دسترسی پیدا کنند. گفتنی است که گوگل هم با ارائه Cloud Vision API قصد دارد مسیری مشابه را طی کند.

ماه گذشته نیز مایکروسافت نوعی ابزار تشخیص احساسات را در قالب همین پروژه معرفی کرد و اعلام داشت که نسخه بتای عمومی تکنولوژی تشخیص گوینده آن تا پایان سال ارائه می گردد.

حالا براساس خبری که از سوی رایان گالگن مدیر ارشد واحد تحقیقات و تکنولوژی های مایکروسافت منتشر شده، این نسخه بتا آماده است و APIهای کلامی آن می توانند گوینده ها را تشخیص داده و تایید کنند و APIهای ویدئویی نیز می توانند چهره ها را دنبال نموده، احساسات را در پس زمینه های ثابت تشخیص دهند و محتواهای ویدئویی را تثبیت نمایند.

اما جالب ترین ابزار ارائه شده CRIS است که در این بخش توجه شما را به توضیحات ارائه شده از سوی مایکروسافت در رابطه با آن جلب می کنیم:

این ابزار بهینه سازی شده، تشخیص کلام در محیط های چالش برانگیز نظیر اماکن عمومی پر سر و صدا را راحت تر می کند. برای نمونه، شرکت ها می توانند از طریق آن امکانی را برای افراد و گروه ها فراهم آورند که همزمان با فعالیت در یک فروشگاه پرسر و صدا و مراکز خرید پرازادحام از ابزارهای تشخیص کلام نیز بهترین و بیشترین بهره را ببرند. از طریق این ابزار همچنین می توان اپلیکیشن هایی را ارائه کرد که بهتر می توانند صحبت های کاربرانشان را درک کنند و مشکلات سابق برای تشخیص کلام افراد غیر بومی یا افراد دارای معلولیت را نخواهند داشت.

پس از آنکه توسعه دهندگان برای استفاده از این سرویس ثبت نام کردند، مایکروسافت از آنها سوال می کند که آیا با تکنولوژی های تبدیل کلام به متن نظیر HTK، Kaldi و SRILM آشنایی دارند یا اینکه صرفا کاربر نرم افزارهای دیجیتالی شخصی نظیر موارد ارائه شده توسط گوگل، اپل یا خود مایکروسافت هستند.

آنطور که گالگن در صحبت های خود مطرح کرده: در سال های اخیر، پیشرفت های عظیمی در عملکرد سیستم های تشخیص کلام رخ داده و حالا توسعه دهندگان می توانند از تکنولوژی هایی که به لطف زحمات مایکروسافت در این حوزه ارائه شده، بهره بگیرند.

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی