تکنولوژی

مایکروسافت نوعی تکنولوژی تبدیل کلام به متن نظیر کورتانا را برای توسعه دهندگان ارائه کرده است

نوشته شده توسط Maryam Mousavi | ۲۴ آذر ۱۳۹۴ | ۱۹:۱۵

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

پس از اعتراض هنرمندان، دسترسی کاربران گزینشی به هوش مصنوعی Sora تعلیق شد
12 دقیقه قبل
جمعه طلایی تترلند هم‌زمان با بلک فرایدی برگزار می‌شود
59 دقیقه قبل
xAI ظاهراً درحال ساخت اپلیکیشن مستقل هوش مصنوعی Grok است
1 ساعت قبل
ساعت هوشمند ردمی واچ ۵ معرفی شد؛ ۲۴ روز استفاده تنها با یک‌بار شارژ
3 ساعت قبل
ردمی بادز 6 پرو با فناوری حذف نویز و عمر باتری 36 ساعته معرفی شد
3 ساعت قبل

ویدئوی مرتبط

تکنولوژی گزارش ویدیویی: ده نکته جالب درمورد بیل گیتس که باید بدانید

روز گذشته مایکروسافت خبر داد که نسخه پیش نمایش خصوصی از سرویس تشخیص هوشمند بهینه خود موسوم به CRIS (برگرفته از سرواژه های Custom Recognition Intelligence Service ) را ارائه کرده که ابزاری با قابلیت شخصی سازی بالاست و می تواند کارکردی هم سطح با سیری را در زمینه تبدیل کلام به متن به اپلیکیشن ها بیافزاید.

روز گذشته همچنین، این شرکت مستقر در ردموند نسخه های پیش نمایش عمومی برای دو API دیگر را ارائه کرد که به واسطه بهره گیری از نوعی تکنولوژی پیشرفته اش قابلیت تشخیص هویت فردی که در یک فایل صوتی صحبت می کند و آنچه در فایل های ویدئویی نمایش داده می شود را در اختیار توسعه دهندگان قرار می دهد.

در ادامه این مطلب با دیجیاتو همراه باشید.

همه این تکنولوژی ها در قالب پروژه ای تخت عنوان آکسفورد ارائه خواهند شد؛ طرحی که به توسعه دهندگان شخص ثالث امکان می دهد به هوش مصنوعی توسعه یافته توسط مایکروسافت دسترسی پیدا کنند. گفتنی است که گوگل هم با ارائه Cloud Vision API قصد دارد مسیری مشابه را طی کند.

ماه گذشته نیز مایکروسافت نوعی ابزار تشخیص احساسات را در قالب همین پروژه معرفی کرد و اعلام داشت که نسخه بتای عمومی تکنولوژی تشخیص گوینده آن تا پایان سال ارائه می گردد.

حالا براساس خبری که از سوی رایان گالگن مدیر ارشد واحد تحقیقات و تکنولوژی های مایکروسافت منتشر شده، این نسخه بتا آماده است و APIهای کلامی آن می توانند گوینده ها را تشخیص داده و تایید کنند و APIهای ویدئویی نیز می توانند چهره ها را دنبال نموده، احساسات را در پس زمینه های ثابت تشخیص دهند و محتواهای ویدئویی را تثبیت نمایند.

اما جالب ترین ابزار ارائه شده CRIS است که در این بخش توجه شما را به توضیحات ارائه شده از سوی مایکروسافت در رابطه با آن جلب می کنیم:

این ابزار بهینه سازی شده، تشخیص کلام در محیط های چالش برانگیز نظیر اماکن عمومی پر سر و صدا را راحت تر می کند. برای نمونه، شرکت ها می توانند از طریق آن امکانی را برای افراد و گروه ها فراهم آورند که همزمان با فعالیت در یک فروشگاه پرسر و صدا و مراکز خرید پرازادحام از ابزارهای تشخیص کلام نیز بهترین و بیشترین بهره را ببرند. از طریق این ابزار همچنین می توان اپلیکیشن هایی را ارائه کرد که بهتر می توانند صحبت های کاربرانشان را درک کنند و مشکلات سابق برای تشخیص کلام افراد غیر بومی یا افراد دارای معلولیت را نخواهند داشت.

پس از آنکه توسعه دهندگان برای استفاده از این سرویس ثبت نام کردند، مایکروسافت از آنها سوال می کند که آیا با تکنولوژی های تبدیل کلام به متن نظیر HTK، Kaldi و SRILM آشنایی دارند یا اینکه صرفا کاربر نرم افزارهای دیجیتالی شخصی نظیر موارد ارائه شده توسط گوگل، اپل یا خود مایکروسافت هستند.

آنطور که گالگن در صحبت های خود مطرح کرده: در سال های اخیر، پیشرفت های عظیمی در عملکرد سیستم های تشخیص کلام رخ داده و حالا توسعه دهندگان می توانند از تکنولوژی هایی که به لطف زحمات مایکروسافت در این حوزه ارائه شده، بهره بگیرند.

venturebeat

مایکروسافت

اشتراک گذاری:

کپی لینک