چرا گوگل، مایکروسافت و آمازون عاشق صدای شما هستند؟

آمازون با دستگاه جدیدی به نام Echo، وعده دستیار شخصی هوشمند مصنوعی در هر خانه را ملموس تر کرد. کسانی که این گجت ها را دارند معمولا به همه توصیه می کنند که یکی از دیوایس های آمازون را بخرند. چرا؟ چون می توانند با آن اوبر بگیرند، پیتزا سفارش دهند و هر جستجویی را انجام دهند. آمازون می گوید که روزانه 5 هزار نفر علاقه خود را نسبت به دستیار صوتی شان مستقیما ابراز می کنند.

از سوی دیگر، علاقه مندان به الکسا می دانند که اگر با او بسیار آهسته و شمرده صحبت نکنید، احتمال دارد که او به شما بگوید: «ببخشید، پاسخ به این پرسش را نمی دانم.»

یکی از مشتریان در وبسایت آمازون در حالی که به محصول امتیاز 5 ستاره داده می گوید: «عاشقش هستم، ازش متنفرم، عاشقش ام. خیلی زود متوجه می شوید که به چه طریقی با او صحبت کنید تا متوجه شما شود، مثل صحبت کردن با یک کودک نو پا.»

aaeaaqaaaaaaaaqgaaaajdm0mja0mzkylta0nwmtnduyyy1hyjniltiynwfmzdm3ywnhoq-w600

فناوری تشخیص صدا راه بسیاری را طی چند سال گذشته پیموده است. اما هنوز هم به قدر کافی پیشرفت نکرده تا در همه محصولات ما به کار رود و وارد استفاده روزمره زندگی انسان شود. تصور کنید یک روزی بتوانید با همه گجت های تان صحبت کنید و آن ها هم به شما پاسخ دهند؛ ماشین، تلویزیون، لباسشویی، کامپیوتر و هر چیز دیگری که فکرش را کنید.

علی رغم پیشرفت های صورت پذیرفته در زمینه فناوری تشخیص صدا، مردم هنوز هم علاقه دارند سکوت کرده و راه شان را با لمس و کلیک اجزای فیزیکی کامپیوتر و موبایل شان پیش ببرند. و این روند احتمالا تا چند سال دیگر هم به همینگونه ادامه خواهد یافت.

چه مسئله ای باعث پیشرفت اندک در این زمینه می شود؟ بخشی از آن به هوش مصنوعی و مغز متفکر دستگاه باز می گردد که جای پیشرفت بسیاری دارد. حالا تصور کنید که چندین زبان زنده و رایج در دنیا داریم و هر کدام چندین گویش و لهجه مخصوص دارند. داده های مربوط به زبان ها در حال حاضر بسیار محدود و ناقص است.

amazing-new-digital-assistant-puts-siri-google-now-shame-1280x600-w600

بنابراین آمازون، اپل، مایکروسافت و بایدو تازه در ابتدای این سفر هستند و باید چندین ترابایت صدا ذخیره کنند تا این فناوری قابلیت همه گیر شدن را پیدا کند.

مایکروسافت در سراسر جهان، مراکز کوچکی، همانند خانه های عادی تاسیس کرده تا علاقه مندان و داوطلبان به آنجا بروند و صداهای شان را ضبط کنند. هر ساعت، آمازون درخواست های الکسا را به یک انبار دیجیتالی آپلود می کند. بایدو مشغول ثبت و ضبط انواع گویش های چینی است. سپس شرکت ها همه این داده ها را جمع کرده و به کامپیوترهای شان می دهند تا از آن ها بیاموزند، متوجه شان شوند و در نهایت پاسخ شان را دهند.

چالش این است که راهی برای ثبت مکالمات واقعی و طبیعی روزمره پیدا شود. آدام کوتس، کسی که آزمایشگاه هوش مصنوعی بایدو در سانی ویل کالیفرنیا را اداره می کند می گوید حتی دقت 95 درصدی هم کافی نیست: «هدف ما این است تا نرخ اشتباه را به 1 درصد برسانیم. آن جا می توانید واقعا به دستگاه اعتماد کنید که متوجه شما شده و این مسئله دگرگون کننده است.»

amazon-echo-5-things-amazon-doesnt-want-you-to-know-about-alexa-w600

تا همین چند سال پیش، قابلیت های تشخیص صدا مورد تمسخر عموم واقع می شدند. یکی از ورژن های اولیه تکنولوژی مایکروسافت برداشت جالبی از واژه «مادر» داشت و آن را «عمه» قلمداد می کرد.

یا پنج سال پیش وقتی سیری از سوی اپل معرفی شد، شاهد انتشار گاف های خنده دار او بودیم. هر از چند گاهی یک ویدیو یا خبر منتشر می شد که به اشتباهات سیری اشاره داشتند. برای مثال وقتی از او پرسیدند آیا جیلیان اندرسون انگلیسی است یا نه، سیری لیست کاملی از رستوران های انگلیس را ارائه داد.

با همه این تفاسیر، سیری و دیگر تکنولوژی ها در حال پیشرفت هستند و جای خود را کم کم میان کاربران باز کرده اند. هنوز جای پیشرفت بسیاری باقی مانده و برای همه گیر شدن آن، شاید نیازمند یکی-دو دهه پیشرفت اساسی باشیم.

ai-recruiter-w600

شبکه های عصبی که این روزها بسیار در موردشان می شنویم، در حقیقت کلید انسان برای حل چنین مشکلاتی هستند. در واقع به این دلیل «شبکه های عصبی» خطاب می شوند که ساختاری بسیار شبیه به مغز انسان دارند.

در حقیقت، لازم نیست به آن ها برنامه خاصی بدهید تا در راستای همان مسئله خاص شروع به یادگیری کنند اما برای یادگیری سریع، به حجم گسترده ای از اطلاعات نیازمند هستند. هر چه به یک موتور تشخیص اصوات بیشتر اطلاعات داده شود، بهتر می تواند تفاوت بین صداها را متوجه شده و عملکردی طبیعی، همانند انسان در مکالمات روزمره داشته باشد.

دهه 90 میلادی بود و بسیاری از کمپانی های بزرگ کم کم تصمیم گرفتند وارد این تجارت شوند. شرکت هایی نظیر مایکروسافت از داده های عمومی در دسترس که موسساتی نظیر Linguistics Data Consortium در اختیارشان قرار می داد استفاده می کردند.

google-home-0-0-w600

سپس، شرکت ها کم کم شروع به جمع آوری داده کردند و به انستیتوها و سازمان های دیگر متکی باقی نماندند. داوطلبان می آمدند، صحبت می کردند، صدا ضبط می شد و روز به روز بانک اطلاعاتی گسترش می یافت.

حالا اما با توجه به محبوبیتی که این فناوری در سراسر دنیا پیدا کرده، شرکت ها هم سرعت بیشتری به جمع آوری اطلاعات پرداخته اند و ماجرا را کمی جدی تر گرفته اند.

وقتی به تلفن همراه تان می گویید که به دنبال چیزی بگردد، آهنگی برای تان پخش کند یا مقصد را به شما نشان دهد، این احتمال وجود دارد که شرکت سازنده آن هوش مصنوعی، در حال ضبط صدای شما باشد. اپل، گوگل، مایکروسافت، آمازون و... تفاوتی ندارند، همه به دنبال مجموعه ای جامع تر هستند.

hackers-can-silently-access-siri-and-google-now-on-your-phone-image-cultofmaccomwp-contentuploads20150920140914_ios9-illos_0056-780x520-w600

وقتی از الکسا می پرسید آب و هوا چطور است یا فلان مسابقه فوتبال چه نتیجه ای در پی داشته، گجت شما ضمن یافتن نتایج برای شما، به واسطه شبکه عصبی اش می تواند بیشتر یاد بگیرد تا دفعه بعدی پاسخ سریع تر و بهتری بدهد.

یکی از چالش های اساسی همه شرکت ها، تسلط به چندین زبان، گویش و لهجه متفاوت است. شاید هیچ نقطه از جهان در حال حاضر به اندازه چین اهمیت این مسئله را نمی تواند نشان دهد.

بایدو، غول جستجوی اینترنتی چین، باید سرویس خود را به چند صد میلیون انسان که گویش های بسیار متنوعی دارند ارائه دهد. هر چه مردم از نقاط مختلف چین، بیشتر در طرح بایدو مشارکت کنند، آینده بهتری در اختیار چینی ها خواهد بود.

windows_phone_81_cortana_main_screen_nokia_lumia_icon_april_2014-100261366-large-w600

طی دو هفته پس از شروع سال نوی چینی، بایدو بیش از 1000 ساعت مکالمه را ثبت و ضبط کرد. اکثر مردم صرفا برای اینکه گویش محلی شان درون سیستم بایدو باشد، این کار را به رایگان انجام دادند. یک معلم دبیرستان در سیچوان به دانش آموزان خود گفته بود که بیش از هزار شعر با زبان محلی شان را برای بایدو بخوانند.

چالش دیگر، صداهای پس زمینه هستند که سیستم باید درک کند نویزهای اضافه را از صدای اصلی جدا کرده و فقط به فرمان اصلی گوش دهد. مثلا در یک استادیوم هستید و ده ها هزار نفر در کنار شما مشغول فریاد زدن هستند. چطور باید موبایل شما تشخیص دهد که صدای شما کدام است؟

مایکروسافت برای این کار، از اپلیکیشنی به نام Voice Studio استفاده می کند که روی اکس باکس اجرا می شود و صدای مخاطب، زمانی که مشغول کشتن و سلاخی کردن دشمنان و هیولاها است را از دل این هیاهو بیرون می کشد. طرح تشویقی مایکروسافت به قدری موثر بود که برزیلی ها اوایل امسال توانستند کورتانا را به زبان خودشان داشته باشند.

b17b16b6c1952ebba2781d1b4d1743092087442f-w600

گوگل فلسفه کمتر، بیشتر است را پیش گرفته و رویکردی متفاوت دارد. به جای تشخیص جمله های بلند و طولانی، سیستم تشخیص صدای گوگل جزئیات جمله را شناسایی کرده و جمله سازی می کند.

با ده ها هزار تکه های ویدیویی 2 الی 5 ثانیه ای، گوگل تصمیم دارد به شکلی متفاوت به این فناوری نگاه کند. در واقع نیازی به ساعت ها ضبط صدا نیست، بلکه قطره قطره جمع می شوند و به یک باره دریایی از داده ها را می سازند.

تاثیر بیشتری دارد یا خیر را نمی دانیم ولی مشخص است که قدرت پردازشی بسیار کمتری برای حلاجی کردن این داده ها لازم است. بایدو هم الگوریتم جالبی دارد که پس از یادگیری یک زبان، یادگیری 12 زبان بعدی را بسیار آسان تر می سازد.

microsoft-and-apple-move-digital-assistant-battle-to-pc-as-siri-ready-for-os-x-505156-2-w600

در واقع اهمیت این الگوریتم زمانی مشخص می شود که بدانیم ده ها زبان زنده در سراسر جهان داریم و بسیاری از آن ها شاید فقط توسط چند ده هزار نفر مورد استفاده قرار می گیرد و نه میلیون ها یا شاید میلیاردها نفر.

شاید تا پنج سال دیگر و شاید تا ده ها سال دیگر خبری از رویایی که داریم نباشد ولی واضح است که کمپانی ها این مسئله را بیش از هر زمان دیگری جدی گرفته اند.

مطالب مرتبط

جف بزوس از وابستگی شدید ارتش آمریکا به شرکت‌های بزرگ تکنولوژی می‌گوید

اگر تاکنون تصور می‌کردید که آمازون هم دنباله روی گوگل از قراردادهای نظامی صرف نظر می کند، سخت در اشتباهید. جف بزوس گفته است در صورتی که شرکت‌های بزرگ تکنولوژی با دولت آمریکا قراردادهای نظامی امضا نکنند، آمریکا با مشکلات بزرگی دست و پنجه نرم خواهند کرد.او تاکید می‌کند که آمریکا به دلیل همکاری با... ادامه مطلب

رکوردشکنی در بلک فرایدی؛ فروش ۷.۴ میلیارد دلاری در ۲۴ ساعت

خریداران در جمعه سیاه ۷.۴ میلیارد دلار را صرف خرید اجناس به صورت آنلاین کرده اند که علی رغم رشد ۱.۲ میلیارد دلاری نسبت به سال گذشته، نتوانسته انتظارات را برآورده کند.در بلک فرایدی یا جمعه سیاه که فروشگاه های آنلاین از شرق تا غرب دنیا اجناس خود را با تخفیف های واقعی و بعضا ساختگی عرضه... ادامه مطلب

پشت لبخند آمازون؛ در انبارهای بزرگ‌ترین فروشگاه اینترنتی جهان چه می‌گذرد؟

بر اساس گزارش‌هایی که منتشر شده است، به نظر می‌رسد آمازون در تلاش برای دور زدن ایمنی محیط انبارهای خود بوده و اسنادی که در اختیار نهادهای قانونی مرتبط گذاشته، دست کاری شده بودند. البته آمازون تا سال ۲۰۱۵ این کار را انجام می‌داده و بعد از آن گزارش‌ها به حالت نرمال بازگشته‌اند. در ادامه... ادامه مطلب

آمازون دستیار هوشمند الکسا را به لامپ ها و اسباب بازی ها می آورد

دستیار هوشمند الکسا آمازون در طیف گسترده ای از محصولات از جمله عینک ها، ایربادها و حتی مایکروفر دیده می شود. حال آمازون می خواهد دستیار هوشمند خود را به محصولاتی با حداقل یک مگابایت حافظه رم و پردازشگر ارزان قیمت Cortex-M نیز بیاورد. با این اوصاف الکسا احتمالاً به اسباب بازی ها و لامپ... ادامه مطلب

شکایت آمازون از پنتاگون به خاطر اعمال نفوذ ترامپ در قرارداد JEDI

آمازون پس از شکست در مناقصه پروژه عظیم JEDI وعده داد پنتاگون را به دادگاه می کشاند و حالا وعده خود را عملی کرده است.پروژه ۱۰ میلیارد دلاری JEDI به سرویس های پردازش ابری پنتاگون مربوط می شود و شرکت های بسیاری برای پیاده سازی آن دندان تیز کرده بودند. از میان تمام گزینه ها شانس آمازون از همه... ادامه مطلب

دعوای کهنه‌ اوراکل و گوگل در دیوان عالی آمریکا دنبال می‌شود

سال‌هاست که اوراکل مدعی شده گوگل در توسعه‌ی اندروید از ۳۷ عدد API مربوط به جاوا بدون مجوز استفاده کرده و مدت‌هاست که شنیده می‌شود گوگل احتمالاً مجبور می‌شود غرامتی با ابعاد چند میلیارد دلاری به اوراکل پرداخت کند. اما هنوز هیچ چیز به نتیجه‌ی نهایی نرسیده است. «بلومبرگ» امروز گزارش داده است که گوگل... ادامه مطلب

نظرات ۵

وارد شوید

برای گفتگو با کاربران، وارد حساب کاربری خود شوید.

ورود
x

رمزتان را گم کرده‌اید؟