Որոնողական ինդեքս

Որոնողական համակարգերի ինդեքսը տվյալների հատուկ բազա/շտեմարան է, որը պարունակում է կայքերի էջերից որոնողական ռոբոտների կողմից հավաքագրված տեղեկատվությունը: Մրևնույն ժամանակ հաշվի է առնվում տեքստի բովանդակությունը, ներքին և արտաքին հղումները, գրաֆիկան և որոշ այլ օբյեկտներ: Երբ օգտվողը հարցում է ուղարկում որոնման համակարգին, տվյալների բազան հասանելի է դառնում: Դրանից հետո կատարվում է դասակարգում ըստ համապատասխանության՝ կայքերի ցանկի ձևավորում, քանի որ դրանց նշանակությունը նվազում է։

Ի՞նչ է ինդեքսավորումը որոնողական ռոբոտների կողմից հավաքագրված տեղեկատվության՝ բազայում/շտեմարանում ավելացնելու գործընթացը կոչվում է ինդեքսավորում: Այնուհետև հավաքագրված տվյալները որոշակի մշակման են ենթարկվում և ստեղծվում է ինդեքս՝ փաստաթղթերի սեղմագիր։ Ինդեքսի լրացման գործընթացն իրականացվում է երկու եղանակներից մեկով՝ ձեռքով կամ ավտոմատ:

Վեբ ռեսուրսների ինդեքսավորման առաջին փորձերը կատարվել են անցյալ դարի 90-ականների կեսերին։ Այն ժամանակ տվյալների բազան սովորական առարկայի ինդեքս էր թվում, որը պարունակում էր ռոբոտների կողմից իրենց այցելած կայքերում հայտնաբերված հիմնաբառերը։

Գրեթե 30 տարի այս ալգորիթմը զգալիորեն բարելավվել և բարդացել է: Օրինակ՝ այսօր ինդեքս մտնելուց առաջ տեղեկատվությունը մշակվում է ամենաբարդ հաշվողական ալգորիթմների կողմիցց՝ արհեստական բանականության/​​ինտելեկտի ներգրավմամբ։

Ինչու՞ են որոնողական համակարգերին անհրաժեշտ ինդեքս

Կայքերի էջերի ինդեքսավորումը որոնման համակարգերի աշխատանքի անբաժանելի մասն է: Վեբ ռեսուրսների սքանավորման արդյունքում ստացված բազան օգտագործվում է համապատասխան արդյունքներ ստեղծելու համար: Որոնողական համակարգերի հիմնական ռոբոտները լինում են

Գոյություն ունեն նաև ռոբոտներ, որոնք սքանավորում են  RSS/Atom հոսքերը, նկարները և այլն։

Առաջին այցելության ժամանակ բոլոր նոր կայքերը մտնում են տվյալների բազա, եթե համապատասխանում են որոնման համակարգի պահանջներին: Երկրորդ այցելության ժամանակ տեղեկատվությունը միայն համալրվում է մանրամասներով։

Էջերի ինդեքսավորման արագությունը

Որքան արագ էջը ավելացվի ինդեքսում, այնքան լավ վեբ ռեսուրսի համար: Այնուամենայնիվ, որոնողական ռոբոտները չեն կարող այդքան մեծ աշխատանք կատարել այնքան հաճախ, որքան թարմացվում է կայքերի բովանդակությունը:

Google-ում ինդեքսավորումը տևում է  միջինը մի քանի օր, իսկ Yandex-ում՝ մեկից երկու շաբաթ։ Վեբռեսուրսների ինդեքսավորումն արագացնելու համար, որոնց համար շատ կարևոր է տվյալների բազայում արագ տեղեկատվություն ստանալը (լրատվական պորտալներ և այլն), օգտագործվում է հատուկ ռոբոտ, որը այցելում է նման կայքեր օրական մեկից մի քանի անգամ: