موتورهای جستجو چگونه کار می کنند؟ [بخش دوم – آخر]

در بخش اول این مقاله، از برخی جزئیات در مورد موتورهای جستجو و نحوه کارشان آگاه شدید. در این بخش به سایر بخش های مرتبط با نحوه کارکرد و عملکرد این موتورها برای در دسترس قرار دادن ...

نوشته شده توسط مجتبی بوالحسنی تاریخ انتشار: ۲۳ آبان ۱۳۹۳

در دیجیاتو ثبت‌نام کنید

جهت بهره‌مندی و دسترسی به امکانات ویژه و بخش‌های مختلف در دیجیاتو عضو ویژه دیجیاتو شوید.

عضویت در دیجیاتو

تازه‌های تکنولوژی

معاون علمی رئیس‌جمهوری: دولت با ایجاد مجوزهای جدید برای تاکسی‌های اینترنتی مخالف است
4 ساعت قبل
پیش‌ثبت‌نام eSIM همراه اول آغاز شد
4 ساعت قبل
آمریکا و چین بر سر چارچوب معامله تیک‌تاک به توافق رسیدند
4 ساعت قبل
ورود دو مرحله‌ای به آپارات اضافه شد
4 ساعت قبل
هشدار به کاربران گوشی‌های سامسونگ: همین حالا آخرین آپدیت امنیتی را نصب کنید
5 ساعت قبل

ویدئوی مرتبط

تکنولوژی دیجی‌تک؛ چرا گوشی‌های اندروید دیر آپدیت می‌شوند؟

در بخش اول این مقاله، از برخی جزئیات در مورد موتورهای جستجو و نحوه کارشان آگاه شدید. در این بخش به سایر بخش های مرتبط با نحوه کارکرد و عملکرد این موتورها برای در دسترس قرار دادن اطلاعات مورد نیاز ما، آشنا شوید.

در ادامه با دیجیاتو باشید.

متا تگ ها (Meta Tags)

با استفاده از متا تگ ها می توان کلمات کلیدی و یک توضیح در مورد محتوا برای هر صفحه تعیین کرد. اینکار باعث می شود صفحات در موتورهای جستجو بهتر فهرست شوند و هنگامی که کلمه ای دو یا چند بار با معانی مختلف در محتوای صفحه تکرار شده باشد استفاده از متا تگ ها می تواند بسیار مفید باشد. موتورهای جستجو می توانند تشخیص دهند که کدام معنی صحیح ترین مورد برای کلمات جستجو شده است.

اما از طرفی این ویژگی یک مشکل اساسی دارد. از آنجا که کلمات کلیدی و توضیحات توسط سازنده صفحه تعیین می گردد، وی می تواند کلمات کلیدی پرطرفداری که در موتورهای جستجو زیاد استفاده می شوند را وارد کند و عملا صفحه ای را برای کاربر نمایش دهد که ارتباطی با موضوع مورد جستجوی او ندارد.

البته برای رفع این مشکل موتورهای جستجو کلمات کلیدی را با محتوای صفحه تطبیق می دهند تا در صورت عدم مطابقت صفحه مورد نظر در لیست نتایج یافت شده قرار نگیرد.

در کل به نظر می رسد اکثر کسانی که صفحات وب را تولید می کنند بسیار علاقمند هستند تا در لیست نتایج یافت شده ی موتور های جستجو قرار بگیرند. به خصوص نتایج برتر. در مواقعی نیز سازنده ی یک صفحه وب نمی خواهد آن صفحه توسط موتورهای جستجو لیست شود.

برای مثال اگر آدرس صفحه ی مدیریت یک وب سایت توسط ربات های موتورهای جستجو مورد بررسی قرار بگیرد طبیعتا در فهرست آن موتور جستجو لیست می گردد و ممکن است توسط هکرها مورد سو استفاده قرار بگیرد. برای رفع این مشکل نیز پروتکل خروج ربات (robot exclusion protocol) ساخته شد. این پروتکل در ابتدای بخش متا تگ ها در صفخات اجرا می شود که در آن می توان تعیین نمود چه صفحاتی توسط ربات های موتورهای جستجو مورد بررسی قرار نگیرند.

ساختن فهرست ها

پس از اینکه صفحات مختلف وب توسط برنامه ی ربات های موتورهای جستجو مورد بررسی قرار گرفتند باید به روشی کارآمد لیست شوند تا کاربران بتوانند با کلمات کلیدی مرتبط با هر صفحه به راحتی به آن دسترسی پیدا کنند. دو جزء کلیدی برای در دسترس قرار دادن اطلاعات مورد نیاز کاربران وجود دارد:

اطلاعات ذخیره شده با داده ها.
روشی که تعیین می کند چه اطلاعاتی فهرست شده اند.

در ساده ترین حالت ممکن موتور جستجو می تواند کلمات و آدرس صفحه ی مورد نظر را ذخیره نماید. در این صورت اما کارایی موتور جستجو محدود خواهد شد. از آنجا که در این حالت راهی برای فهمیدن اینکه چه کلماتی در معنی واقعی خود و به چه تعداد به کار رفته اند وجود ندارد، بنابر این صفحاتی که کلمه مورد نظر کاربر یکبار و شاید به معنی دیگری به کار رفته باشد در کنار صفحاتی که کاربر واقعا به دنبال آن است در لیست نتایج قرار می گیرند که این باعث سردرگمی خواهد شد. به عبارت دیگر در این صورت هیچ راهی برای رتبه بندی صفحات از نظر نزدیک بودن محتوا به کلمه یا عبارت جستجو شده ی کاربر وجود نخواهد داشت.

برای ایجاد نتایج کاربردی تر، موتورهای جستجو فقط به ذخیره ی کلمه و نشانی وب سایت اکتفا نمی کنند، بلکه تعداد دفعاتی که عبارت یا کلمه مورد جستجو در محتوای یک وب سایت به کار رفته را نیز ذخیره می کنند. ممکن است برای هر وب سایتی که اطلاعات آن در موتورهای جستجو فهرست می شود مشخصه ی دیگری به نام وزن را نیز در نظر بگیرند.

کار مشخصه ی یاد شده تعیین تعداد دفعات تکرار یک کلمه در بالای متن صفحه است. البته هر موتور جستجوی تجاری فرمول متفاوتی را برای تعیین وزن کلمات در فهرست خود استفاده می کند و این یکی از دلایلی است که با جستجوی یک کلمه ی مشابه در چند موتور جستجو، شاهد نتایج گاها متفاوتی نیز هستیم؛ چرا که صفحات با معیار های مختلفی لیست می شوند.

بدون در نظر گرفتن بخش های مختلف اطلاعات که در موتورهای جستجو ترکیب می شوند، داده ها به صورت رمزگذاری شده درآمده و سپس ذخیره می شوند. برای مثال گوگل اعلام کرده که برای ذخیره سازی اطلاعات وزن کلمه ها از دو بایت حافظه (که شما دو بخش ۸ بیتی است) استفاده می کند. سپس با استفاده از یکسری اطلاعات رتبه ی هر کلمه تعیین می شود.

هر بخش از این داده ها ممکن است ۲ تا ۳ بیت از فضای ۸ بایتی اطلاعات وزن هر کلمه را اشغال کند. با این روش حجم بسیار زیادی از داده را می توان با حافظه ای کوچک نگهداری نمود. پس از آماده سازی اطلاعات و کم حجم کردن آن ها، این داده ها برای فهرست بندی آماده می شوند.

هر فهرست یک هدف مشخص دارد، و آن دستیابی به اطلاعات در سریع ترین زمان ممکن است. راه های گوناگونی برای ایجاد فهرست ها وجود دارد. یکی از موثرترین راه ها، استفاده از جداول مخلوط است. یک فرمول به بخش عددی هر ردیف از داده ها اعمال می شود. این فرمول طراحی شده تا هر یک از آیتم های لیست به بخش های از پیش تعیین شده و به طور مساوری توزیع شوند. توزیع عددی با مرتب سازی حروف متفاوت بوده و در واقع کلید اصلی اثربخشی جداول مخلوط است.

در زبان انگلیسی تعدادی از حروف وجود دارند که کلمات زیادی با آن ها شروع می شوند در صورتی که کلمات کمتری با حروف دیگر آغاز می گردند. برای مثال حرف M در یک کتاب فرهنگ لغت، صفحات بیشتری نسبت به X دارد. این تفاوت یعنی تعداد کلماتی که با یک حرف آغاز می شوند امکان دارد نسبت به تعداد کلماتی که با حرفی دیگر شروع می شوند، بیشتر بوده و زمان طولانی تری برای یافتن کلمات دسته ی اول نیاز خواهد بود.

مخلوط کردن و از بین بردن این تفاوت ها، باعث می شود زمان میانگین یافتن هر مورد از لیست تقریبا برابر باشد. این کار همچنین فهرست را از آیتم مورد نظر جدا می کند. در جدول مخلوط، هر آیتم شامل اعداد ترکیب شده (Hashed Numbers) بوده که دارای بخشی برای رجوع به داده های اصلی است که می تواند با استفاده از راه های گوناگونی که کارایی بیشتری دارند، ذخیره شود. با بالا بردن کارایی و اثر بخشی نوع ذخیره سازی و فهرست بندی اطلاعات در موتورهای جستجو، حتی اگر کاربران عبارات پیچیده را جستجو نمایند، دستیابی به نتایج، سریع تر می شود.

ایجاد جستجوها

کاربران با ایجاد پرس و جوها (Query) در موتورهای جستجو می توانند در فهرست ها به دنبال اطلاعات مورد نیاز خود بگردند. در ساده ترین حالت ممکن یک پرس و جو می تواند یک کلمه باشد. در حالت های پیشرفته تر حتی از عملگرهای مخصوص برای جستجوی چند کلمه و یا عبارت می توان استفاده نمود.

برخی از مهمترین عملگرهایی که اغلب موتورهای جستجو از آنها پشتیبانی می کنند عبارتند از:

AND: تمام کلماتی که بین آنها And به کار رفته، باید در محتوای صفحه یا سند مورد نظر وجود داشته باشند. در برخی موتورهای جستجو استفاده از علامت "+" به جای And دقیقا همین عمل را انجام می دهد.
OR: حداقل یکی از کلماتی که بین آن ها OR قرار گرفته، باید در محتوای سند یا صفحه مورد نظر وجود داشته باشد.
NOT: کلمه یا عبارتی که پس از Not در متن مورد جستجو قرار بگیرد، نباید در محتوای سند یا صفحه مورد نظر وجود داشته باشد. در برخی موتورهای جستجو استفاده از علامت "–" به جای Not نیز دقیقا همین عمل را انجام می دهد.
FOLLOWED BY: یک کلمه باید دقیقا پس از کلمه ی دیگر در متن صفحه یا سند مورد نظر وجود داشته باشد.
NEAR: کلمه یا عبارت مورد جستجو باید به همراه تعداد مشخصی از کلمه ی دیگری در محتوای صفحه یا سند مورد نظر موجود باشد.
علامت کوتیشین: اگر کلمه یا عبارتی در میان کوتیشین ها "" قرار بگیرد، باید آن کلمه یا عبارت عینا در متن سند یا صفحه مورد نظر وجود داشته باشد.

آینده جستجو

استفاده از عملگرهایی که در بالا ذکر کردیم باعث می شود موتورهای جستجو دقیقا آنچه که مد نظر شما است را بیابند. مشکل اما هنگامی به وجود می آید که کلمات مورد جستجو دارای چند معنی مختلف باشد. برای مثال کلمه ی انگلیسی Bed می تواند برای خواب بکار رود یا به عنوان مکانی که گیاهان در آن کاشته می شوند معنی بدهد و یا محل ذخیره سازی کامیون ها را یاد آور شود. همچنین این واژه برای مکانی که ماهی ها تخم های خود را رها می سازند نیز به کار می رود.

اگر شما فقط به دنبال یکی از معانی بالای کلمه ی یاد شده هستید مجبور می شوید تا صفحات بیشتری را در نتایج جستجو مرور کنید تا به اطلاعات مورد نظر خود دسترسی پیدا کنید. البته این امکان وجود دارد تا با جستجوهای دقیق، فقط به دنبال معنی مورد نظر خود برای چنین کلماتی جستجو نمایید، اما بهتر این است که موتورهای جستجو خود این عمل را انجام دهند.

یکی دیگر از مقوله هایی که امروزه در موتورهای جستجو مورد بررسی و تحقیق قرار گرفته، جستجوهای مفهومی است. در برخی از این تحقیق ها از تحلیل آماری کلماتی که در محتوا وجود دارند، سعی می شود نتایج مرتبط تر با کلمه یا عبارت مورد نظر نمایش داده شود. بدیهی است، اطلاعاتی که موتورهای جستجوی مفهومی در مورد صفحات وب نگهداری می کنند حجم بیشتری نسبت به موتورهای جستجوی معمولی دارد، بنابراین می توان انتظار داشت که برای هر جستجو، یافتن نتایج زمان بیشتری طول بکشد. گروه های مختلفی اکنون در حال کار بر روی اینگونه موتورهای جستجو هستند تا کارایی و نتایج یافت شده آنها را بهبود بخشند.

برخی دیگر از موتورهای جستجو به سمتی دیگر حرکت کرده اند که جستجو با استفاده از زبان طبیعی نامیده شده است.

ایده ی اصلی جستجو با زبان طبیعی این است که شما اگر سوالی دارید آن را به همان صورتی که از یک انسان می پرسید، می توانید از موتورهای جستجو سوال نمایید. در این حالت نیازی به استفاده از عملگرهای مختلف برای فهماندن منظور خود نخواهید داشت. یکی از معروف ترین وب سایت هایی که چنین قابلیتی را ارائه می دهد AskJeeves.com است. البته این وب سایت فعلا پرس و جو های ساده را پشتیبانی می کند، اما با رقابتی که امروز برای استفاده از زبان طبیعی در موتورهای جستجو وجود دارد، می توان انتظار داشت به زودی شاهد پیشرفت های بسیاری در این زمینه باشیم.

البته دستیارهای صوتی تلفن های هوشمند مانند Google Now، سیری و کورتانا نیز از همین روش به همراه کمک گرفتن از هوش مصنوعی برای پاسخ به سوالات صوتی کاربران استفاده می کنند.

لطفا نظرات خود را در مورد موتورهای جستجو و اینکه کدام یک بهتر عمل می نمایند با دیجیاتو و سایر کاربران در میان بگذارید.

HowStuffWorks

بینگ گوگل یاهو

اشتراک گذاری:

کپی لینک