COSA SI INTENDE CON IL TERMINE “CRAWLER”?
Un crawler, detto anche bot o spider, non è altro che un software specifico che scarica e indicizza contenuti presenti in ogni angolo dell’Internet. Lo scopo di questi crawler è raccogliere informazioni sui diversi contenuti presenti nella rete, che vengono in seguito catalogati e divisi a seconda del motore di ricerca in cui si trovano.
Dal termine Crawler deriva la parola “crowling” con cui si intende il processo che permette ai motori di ricerca di creare un indice delle più diverse risorse, dei più diversi contenuti presenti in Rete.
QUALI SONO E COME FUNZIONANO?
I crawler iniziano da un seed (lista di URL nota e definita), e da essa iniziano a esaminare tutte le pagine collegate a quegli URL. Man mano che avanzano lungo le pagine, incontreranno collegamenti ipertestuali che rimandano ad altri URL, e aggiungeranno questi URL alla prossima lista di pagine da scandagliare.
Sono presenti differenti crawler a seconda dei differenti motori di ricerca ed aree in cui operano. Di seguito i principali.
- Google: Googlebot (in realtà i sono due, Googlebot Desktop e Googlebot Mobile, per le ricerche su desktop e dispositivi mobili)
- Bing: Bingbot
- Yandex (motore di ricerca russo): Yandex Bot
- Baidu (motore di ricerca cinese): Baidu Spider
Ne esistono anche molti altri, meno diffusi, alcuni dei quali non sono associati ad alcun motore di ricerca.
CURIOSITÀ
I crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file “robots.txt” posto nella root del sito. All’interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Questi Bot hanno la facoltà di seguire i consigli, ma non l’obbligo.