Որոնողական ռոբոտ

Որոնողական ռոբոտը որոշակի որոնման համակարգին պատկանող հատուկ ծրագիր է, որը նախատեսված է տվյալների բազա մուտքագրելու (ինդեքսավորելու) ինտերնետում հայտնաբերված կայքերը և դրանց էջերը: Կիրառվում են նաև հետևյալ անվանումները՝ քրաուլեր, սարդ, բոտ, ավտոմատ ինդեքսավորող, մրջյուն, վեբ-քայլող, բոտ, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider։

Որոնողական ռոբոտների գործունեության սկզբունքը

Որոնողական ռոբոտը բրաուզերային/զննարկչային տիպի ծրագիր է։ Այն անընդհատ սքանավորում է ցանցը՝ ինդեքսավորելով իրեն արդեն հայտնի կայքերը, անցնում այդ կայքերում առկա հղումներով ու բացահայտում/սքանավորում նոր կայքեր։ Նոր վեբ ռեսուրս հայտնաբերելու դեպքում պրոցեդուրայի ռոբոտն այն ավելացնում է որոնման համակարգի ինդեքսում: Որոնող ռոբոտը ինդեքսավորում է նաև կայքերի թարմացումները, որոնց հաճախականությունը ֆիքսված է։ Օրինակ՝ կայքը, որը թարմացվում է շաբաթը մեկ անգամ, այս հաճախականությամբ այցելում է սարդը, և լրատվական կայքերի բովանդակությունը կարող է ինդեքսավորվել հրապարակվելուց րոպեների ընթացքում: Եթե ​​այլ ռեսուրսներից ոչ մի հղում չի տանում դեպի կայք, ապա որոնման ռոբոտներին ներգրավելու համար ռեսուրսը պետք է ավելացվի հատուկ ձևի միջոցով (Google Webmaster, Яндекс Вебмастер, Bing Webmaster և այլն):

Որոնողական ռոբոտների տեսակները

Իրականում «որոնողական ռոբոտ» հասկացությունը միավորում է դրանց որոշակի հավաքածու։ Յուրաքանչյուր որոնիչ բարելավում է սքանավորումն ու ինդեքսավորումը՝ օգտագործելով ևս մի քանի մասնագիտացված ռոբոտներ: Օրինակ, առավել հանրահայտ Google, Yandex որոնիչներն այսօր օգտագործում է հետևյալ բոտերը, որոնք գործում են միաժամանակ։

Այլ որոնման համակարգերը նույնպես օգտագործում են մի քանի տեսակի ռոբոտներ, որոնք ֆունկցիոնալ առումով նման են թվարկվածներին: Ստորև թվարկված անուններով կարելի է բացահայտել որոնման ռոբոտները՝ սերվերի լոգերում/տեղեկամատյաններում: Ի դեպ, հաճախ հարձակվողների համար «User-Agent»-ը կեղծում և այնտեղ որոնման ռոբոտներին նույնական տվյալներ են մուտքագրում: Որոնման ռոբոտի վավերականությունը ստուգելու համար կարելի է օգտվել Bot Validator-ներից։ Ռոբոտի գոյությունը ստուգելու համար կարելի է կիրառել նաև զանազան բոտերի Udger շտեմարանը։ Այս կայքը նկարագրում է նրանց հայտնի ռոբոտները՝ նշելով IP հասցեները, Հոսթները և User-Agent-ում տողերի օրինակները:

Ամենահայտնի որոնման համակարգերի որոնողական ռոբոտների անուններն են՝

Google

Պաշտոնական նկարագրության էջ՝ Google -ի որոնողական ռոբոտներ

Չհրապարակված

Яндекс

Չհրապարակված

Պաշտոնական նկարագրության էջ՝ Яндекс-ի որոնողական ռոբոտներ

Mail.ru

Պաշտոնական նկարագրության էջ՝ Mail.ru-ի որոնողական ռոբոտներ

Bing

Պաշտոնական նկարագրության էջ՝ Bing-ի որոնողական ռոբոտներ /Այս որոնման համակարգն ունի «Bingbot-ի ստուգում», որի օգնությամ կարելի է իմանալ արդյո՞ք տվյալ բոտի IP հասցեն պատկանում է Bing-ին։/

Ինդեքսավորման կառավարում

Չնայած, որ նկատվելու համար կայքը պետք է ինդեքսավորվի, միշտ չէ, որ պահանջվում է դրանց ամբողջ տեղեկատվությունը հասանելի դարձնել օգտատերերին և, համապատասխանաբար, որոնման ռոբոտին: Օրինակ՝ առցանց խանութները փակում են էջերը՝ ինդեքսավորումից, որտեղ կան հաճախորդի տվյալները, ինդեքսավորման ենթակա չեն կայքի կառավարման վահանակները և այլն։

Կարելի է փակել կայքի ողջ բովանդակությունը կամ դրանում տեղադրված տեղեկատվության միայն մի մասը՝ որոնման ռոբոտների կողմից ինդեքսավորվելուց՝ օգտագործելով robots.txt ֆայլը: Դրանում, որոշակի կանոնների համաձայն՝ տեքստային ձևաչափով հատուկ հրահանգների օգնությամբ գրվում են որոնման ռոբոտների հրամաննեը։ Հարկ է նշել, որ երբ ռոբոտները հասնում են կայք, նրանք առաջին հերթին փնտրում են robots.txt ֆայլը։ Կարդում են հրահանգները, եթե ֆայլը կա, և ըստ դրանց ինդեքսավորում էջերը։

Robots.txt ֆայլի հրահանգները՝