موتور جستجوگر چگونه کار می کند؟

وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود ، کاربران در واقع نتیجه کار بخش های متفاوت آن موتور جستجوگر را می بینند. موتور جستجوگر پیش از این پایگاه داده اش را آماده کرده است و این گونه نیست که در همان لحظه ی جستجو تمام وب را بگردد. بسیاری از خود می پرسند که چگونه امکان دارد گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
نه گوگل و نه هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به کاربران ، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه وب!

موتور جستجوگر به کمک بخش های متفاوت خود ، اطلاعات مورد نیاز را پیش از این جمع آوری ، تجزیه و تحلیل می کند و آن را در پایگاه داده اش ذخیره می نماید. بخش های مجزای یک موتور جستجوگر عبارتند از:

  • Spider یا عنکبوت
  • Crawler یا خزنده
  • Indexer یا بایگانی کننده
  • Database یا پایگاه داده
  • Ranker یا سیستم رتبه بندی

  • عنکبوت

عنکبوت نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. عنکبوت به صفحات مختلف سر می زند ، محتوای آنها را می خواند و اطلاعات مورد نیاز موتور جستجوگر را جمع آوری می کند و آن را در اختیار سایر بخش های موتور جستجوگر قرار می دهد.
کار یک عنکبوت بسیار شبیه کار کاربران وب است. همانطور که کاربران صفحات مختلف را بازدید می کنند عنکبوت هم این کار را انجام می دهد با این تفاوت که عنکبوت کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کد ها را می بینند.

شکل 1- نمونه ای از صفحات وب که توسط مرورگر ها نشان داده می شود.

 

عنکبوت صفحات را چگونه می بیند؟

برای اینکه شما هم بتوانید دنیای وب را از دیدگاه یک عنکبوت ببینید ، کافی است که کد های HTML صفحات را مشاهده کنید. برای این کار در مرورگر اکسپلورر مسیر View>Source را به صورت نشان داده شده در شکل (2) دنبال کنید.

شکل 2- روش مشاهده کدهای HTML در مرورگر اکسپلورر

 

با انجام این کار فایل متنی شکل (3) به شما نشان داده می شود:

شکل 3- کدهای HTML سازنده یک صفحه وب

 

توجه کنید: در مرورگر های نت اسکیپ (Netscape) برای مشاهده کدهای HTML باید مسیر View>Page Source را دنبال کنید.

آیا این دنیای متنی برای شما جذاب است؟
عنکبوت به هنگام مشاهده صفحات از خود بر روی سرور ها رد پا می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید ، می توانید مشخص کنید که عنکبوت کدام موتور های جستجوگر صفحات سایت را مورد بازدید قرار داده اند.

عنکبوت ها کاربرد های دیگری نیز دارند ، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن پیوند های آنها می پردازند و یا به دنبال آدرس پست الکترونیکی افراد می گردند.

  • خزنده

خزنده نرم افزاری است که به عنوان یک فرمانده برای عنکبوت عمل می کند. خزنده مشخص می کند که عنکبوت کدام صفحات را مورد بازدید قرار دهد. در واقع خزنده تصمیم می گیرد که کدام یک از پیوند های صفحه ای که عنکبوت در حال حاضر در آن قرار داد دنبال شود. ممکن است همه آنها را دنبال کند ، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.
خزنده ممکن است پیش از این توسط دارندگان موتور های جستجوگر برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه در اختیار عنکبوت قرار دهد تا از آنها دیدن کند.
دنبال کردن پیوند های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده اش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتور های جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت ، همانطور که دوست دارید موتور های جستجوگر اطلاعات سایت شما را با خود ببرند ، می توانید آنها را از بعضی از صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به موتور های جستجوگر ندهید.
بیشتر بدانید: تنظیم میزان دسترسی موتور های جستجوگر به محتوای یک سایت توسط پروتکل robots انجام می شود.

  • بایگانی کننده

تمام اطلاعات جمع آوری شده توسط عنکبوت در اختیار بایگانی کننده قرار می گیرد. در این بخش اطلاعات ارسال مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است ، چه حجمی دارد ، کلمات موجود در آن کدام است ، کلمات چند بار تکرار شده است ، کلمات در کجای صفحه قرار دارند و غیره.
در حقیقت بایگانی کننده صفحه را به پارامتر های آن خرد می کند و تمام این پارامتر ها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامتر های صفحات مختلف را با هم مقایسه کند.
در زمان تجزیه و تحلیل اطلاعات ، بایگانی کننده برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند نظیر a ، an ، the ، www و is صرف نظر می کند.

  • پایگاه داده

تمام داده های تجزیه و تحلیل شده در بایگانی کننده به پایگاه داده ارسال می گردد. در این بخش ، داده ها گروه بندی ، کدگذاری و ذخیره می شوند. همچنین داده ها قبل از آنکه ذخیره شوند ، فشرده می شوند تا حجم کمی را اشغال کنند.
یک موتور جستجوگر باید پایگاه داده عظیمی داشته باشد و به طور مداوم حجم محتوای آن را گسترش دهد و البته اطلاعات قدیمی را هم به روز کند. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوت های اصلی موتور های جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است. در شکل (4) حجم پایگاه داده چند موتور جستجوگر با هم مقایسه شده است.

شکل 4- مقایسه حجم پایگاه داده چند موتور جستجوگر در دسامبر 2001
به ترتیب از چپ به راست: گوگل ، آلتا ویستا ، آل د وب ، اینکتومی ، نردرن لایت
منبع: www.searchenginewatch.com

 

  • سیستم رتبه بندی

بعد از آنکه تمام مراحل قبل انجام شد ، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی آن وارد می کنند و سپس با فشردن Enter منتظر پاسخ می مانند. در این مرحله ، سیستم رتبه بندی وارد عمل می شود و ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده مرتبط هستند را مشخص می کند. سپس آنها را به ترتیب از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و در نتایج جستجو به کاربر ارایه می کند.
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند ، یک موتور جستجوگر ضعیف خواهد بود.
سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتور های جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران ، پارامتر های بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دهد.
حرفه ای های دنیای بهینه سازی موتور جستجو به طور خلاصه از آن به آلگوریتم یاد می کنند که به مجموعه ای از دستور العمل ها گفته می شود که موتور های جستجوگر با اعمال آنها بر پارامتر های صفحات موجود در پایگاه داده اش ، تصمیم میگیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب کند. در حال حاضر قدرتمند ترین سیستم رتبه بندی را گوگل در اختیار دارد.
البته می توان با ادغام کردن وظیفه های عنکبوت یا خزنده و همچنین بایگانی کننده با پایگاه داده ، موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد:

  • Crawler
  • Indexer
  • Ranker

 
منبع: کتاب یک یا دو هزار و یک ، بخش اول ، صفحه 10 الی 13

Advertisements

یک دیدگاه برای ”موتور جستجوگر چگونه کار می کند؟

پاسخی بگذارید

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s