Որոնողական ռոբոտը որոշակի որոնման համակարգին պատկանող հատուկ ծրագիր է, որը նախատեսված է տվյալների բազա մուտքագրելու (ինդեքսավորելու) ինտերնետում հայտնաբերված կայքերը և դրանց էջերը: Կիրառվում են նաև հետևյալ անվանումները՝ քրաուլեր, սարդ, բոտ, ավտոմատ ինդեքսավորող, մրջյուն, վեբ-քայլող, բոտ, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider։
Որոնողական ռոբոտների գործունեության սկզբունքը
Որոնողական ռոբոտը բրաուզերային/զննարկչային տիպի ծրագիր է։ Այն անընդհատ սքանավորում է ցանցը՝ ինդեքսավորելով իրեն արդեն հայտնի կայքերը, անցնում այդ կայքերում առկա հղումներով ու բացահայտում/սքանավորում նոր կայքեր։ Նոր վեբ ռեսուրս հայտնաբերելու դեպքում պրոցեդուրայի ռոբոտն այն ավելացնում է որոնման համակարգի ինդեքսում: Որոնող ռոբոտը ինդեքսավորում է նաև կայքերի թարմացումները, որոնց հաճախականությունը ֆիքսված է։ Օրինակ՝ կայքը, որը թարմացվում է շաբաթը մեկ անգամ, այս հաճախականությամբ այցելում է սարդը, և լրատվական կայքերի բովանդակությունը կարող է ինդեքսավորվել հրապարակվելուց րոպեների ընթացքում: Եթե այլ ռեսուրսներից ոչ մի հղում չի տանում դեպի կայք, ապա որոնման ռոբոտներին ներգրավելու համար ռեսուրսը պետք է ավելացվի հատուկ ձևի միջոցով (Google Webmaster, Яндекс Вебмастер, Bing Webmaster և այլն):
Որոնողական ռոբոտների տեսակները
Իրականում «որոնողական ռոբոտ» հասկացությունը միավորում է դրանց որոշակի հավաքածու։ Յուրաքանչյուր որոնիչ բարելավում է սքանավորումն ու ինդեքսավորումը՝ օգտագործելով ևս մի քանի մասնագիտացված ռոբոտներ: Օրինակ, առավել հանրահայտ Google, Yandex որոնիչներն այսօր օգտագործում է հետևյալ բոտերը, որոնք գործում են միաժամանակ։
Այլ որոնման համակարգերը նույնպես օգտագործում են մի քանի տեսակի ռոբոտներ, որոնք ֆունկցիոնալ առումով նման են թվարկվածներին: Ստորև թվարկված անուններով կարելի է բացահայտել որոնման ռոբոտները՝ սերվերի լոգերում/տեղեկամատյաններում: Ի դեպ, հաճախ հարձակվողների համար «User-Agent»-ը կեղծում և այնտեղ որոնման ռոբոտներին նույնական տվյալներ են մուտքագրում: Որոնման ռոբոտի վավերականությունը ստուգելու համար կարելի է օգտվել Bot Validator-ներից։ Ռոբոտի գոյությունը ստուգելու համար կարելի է կիրառել նաև զանազան բոտերի Udger շտեմարանը։ Այս կայքը նկարագրում է նրանց հայտնի ռոբոտները՝ նշելով IP հասցեները, Հոսթները և User-Agent-ում տողերի օրինակները:
Ամենահայտնի որոնման համակարգերի որոնողական ռոբոտների անուններն են՝
- Google — googlebot
- Яндекс — Yandex
- MSN — msnbot
- Yahoo! — Yahoo! Slurp
- Petal Search — PetalBot
- Baidu — Baiduspider
- Sogou — sogouspider
- DuckDuckGo — DuckDuckBot
- Excite — Exabot
- Рамблер — StackRambler
- Mail.ru
- Ask.com
- Lycos
- Alta Vista
- Ecosia
- Aol
- Internet Archive
- Naver — NaverBot
- Boardreader
- Dogpile
- Creative Commons Search
Google
Պաշտոնական նկարագրության էջ՝ Google -ի որոնողական ռոբոտներ
- Робот Googlebot — համակարգի հիմնական ինդեքսավորող ռոբոտ
- Googlebot News — հատուկ ստեղծված է՝ նորությունները սքանավորելու ու ինդեքսավորելու համար
- Googlebot Images — ռոբոտ, որը զբաղվում է պատկերների որոնմամբ ու ինդեքսավորմամբ
- Googlebot Video — ռոբոտ, որը զբաղվում է տեսանյութերի որոնմամբ ու ինդեքսավորմամբ
- Google Mobile — մոբայլ սարքերի համար կայքերի ինդեքսավորմամբ զբաղվող ռոբոտ
- Google AdSense ու Google Mobile AdSense — Google-ի գովազդային ցանցում ներգրավված կայքերի ինդեքսավորվմամբ զբաղվող ռոբոտ
- Google AdsBot — նպատակային էջի որակը ստուգող ռոբոտ
Չհրապարակված
- GoogleImageProxy — Օգտագործվում է կայքից պատկերները քեշավորելու/պահելու համար: Սքանավորում է միայն պատկերներ:
- Google Web Preview — Թե կոնկրետ ինչ դեր է կատարում այս ռոբոտը, դեռ հայտնի չէ։
- googleweblight — Կայքը դանդաղ ինտերնետ աղբյուրներից զննարկելիս Google-ն առաջարկում է դիտել վեբ էջերի պարզեցված տարբերակը: Այս «հետգրությունը» պարզապես ցույց է տալիս, որ նման դիտում է օգտագործվել։ Օրինակ՝ կարող եք օգտվել http://googleweblight.com/?lite_url=site_url ծառայությունից:
- Google Page Speed Insights — Կայքի արագագործության վերլուծության «PageSpeed Insights» ծառայությունը — https://pagespeed.web.dev/։
- Google Structured Data Testing Tool — Կայքի կառուցվածքային տվյալների ստուգման ծառայություն — https://search.google.com/test/rich-results)։
- Google Favicon — Այս ռոբոտը սքանավորում է կայքի Favicon-ը։ Այն նախատեսված է փոքր քանակությամբ բովանդակության համար: Միշտ հարցումներ է կատարում՝ օգտագործելով GET մեթոդը։
- Google Adwords Instant/Google Ads Instant — Օգտագործվում է Ads-ում/Adwords-ում, ինչպես արագ գովազդի դիտիչը։
- Google Analytics Snippet Validator
- Google Site Verification
- Google PP Default
- Google SearchByImage — Այցը գրանցվում է, երբ պատկերի որոնումն իրականացվում է «Google Images»-ի միջոցով։
- Google Search Console
Яндекс
- Yandex/1.01.001 (I) — սա Яндекс-ի հիմնական որոնողական ռոբոտն է, որը զբաղվում է ինդեքսավորմամբ
- Yandex/1.01.001 (P) — ռոբոտի հիմնական զբաղմունքը պատկերների որոնումն ու ինդեքսավորումն է
- Yandex/1.01.001 (H) — նախատեսված է կայքերի հայելիների հայտնաբերման համար
- Yandex/1.03.003 (D) — որոշում է, թե արդյոք վեբ-վարպետի վահանակի ձևի միջոցով ավելացված էջի ինդեքսավորման պարամետրերը համընկնում են, այն առաջինն է այցելում ավելացված վեբռեսուրսը, և միայն սրա դրական գնահատականից հետո է աշխատանքի անցնում հիմնական որոնման բոտը՝ Yandex/1.01.001
- Yandex/1.03.000 (M) — այս ռոբոտն այցելում է էջը այն բացելուց հետո որոնման արդյունքների «Գտնված բառեր» հղման միջոցով
- YaDirectBot/1.0 (I) — ինդեքսավորում է Яндекс-ի գովազդային ցանցի կայքերը
- Yandex/1.02.000 (F) — ինդեքսավորում է կայքի ֆավիկոնը
Չհրապարակված
Պաշտոնական նկարագրության էջ՝ Яндекс-ի որոնողական ռոբոտներ
- YandexBot
- YandexAccessibilityBot
- YandexMobileBot
- YandexDirectDyn
- YandexScreenshotBot
- YandexImages
- YandexVideo
- YandexVideoParser
- YandexMedia
- YandexBlogs
- YandexFavicons
- YandexWebmaster
- YandexPagechecker
- YandexImageResizer
- YandexAdNet
- YandexDirect
- YaDirectFetcher
- YandexCalendar
- YandexSitelinks
- YandexMetrika
- YandexNews
- YandexNewslinks
- YandexCatalog
- YandexAntivirus
- YandexMarket
- YandexVertis
- YandexForDomain
- YandexSpravBot
- YandexSearchShop
- YandexMedianaBot
- YandexOntoDB
- YandexOntoDBAPI
Mail.ru
Պաշտոնական նկարագրության էջ՝ Mail.ru-ի որոնողական ռոբոտներ
- Mail.RU_Bot
- Mail.RU_Bot/Fast
- Mail.RU_Bot/Img
- Mail.RU_Bot/Robots
Bing
Պաշտոնական նկարագրության էջ՝ Bing-ի որոնողական ռոբոտներ /Այս որոնման համակարգն ունի «Bingbot-ի ստուգում», որի օգնությամ կարելի է իմանալ արդյո՞ք տվյալ բոտի IP հասցեն պատկանում է Bing-ին։/
- Bingbot
- MSNBot
- MSNBot-Media
- AdIdxBot
- BingPreview
Ինդեքսավորման կառավարում
Չնայած, որ նկատվելու համար կայքը պետք է ինդեքսավորվի, միշտ չէ, որ պահանջվում է դրանց ամբողջ տեղեկատվությունը հասանելի դարձնել օգտատերերին և, համապատասխանաբար, որոնման ռոբոտին: Օրինակ՝ առցանց խանութները փակում են էջերը՝ ինդեքսավորումից, որտեղ կան հաճախորդի տվյալները, ինդեքսավորման ենթակա չեն կայքի կառավարման վահանակները և այլն։
Կարելի է փակել կայքի ողջ բովանդակությունը կամ դրանում տեղադրված տեղեկատվության միայն մի մասը՝ որոնման ռոբոտների կողմից ինդեքսավորվելուց՝ օգտագործելով robots.txt ֆայլը: Դրանում, որոշակի կանոնների համաձայն՝ տեքստային ձևաչափով հատուկ հրահանգների օգնությամբ գրվում են որոնման ռոբոտների հրամաննեը։ Հարկ է նշել, որ երբ ռոբոտները հասնում են կայք, նրանք առաջին հերթին փնտրում են robots.txt ֆայլը։ Կարդում են հրահանգները, եթե ֆայլը կա, և ըստ դրանց ինդեքսավորում էջերը։
Robots.txt ֆայլի հրահանգները՝
- User-agent — կոնկրետ որոնման համակարգի կոնկրետ ռոբոտին դիմելաձև
- Disallow — կարող է փակել ինչպես ամբողջ կայքը, այնպես էլ նրա առանձին ֆայլերն ու էջերը
- Host — ազդանշան է տալիս ռոբոտին, որի URL-ի տակ (եթե կայքը ունի հայելիներ) ռեսուրսը ինդեքսավորվում է
Վերադառնալ բառարանի հիմնական էջ