Un crawler (detto anche spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca.
Un crawler è un tipo di bot (programma o script che automatizza delle operazioni).
I crawler solitamente acquisiscono una copia testuale di tutti i documenti visitati e le inseriscono in un indice.
Un uso estremamente comune dei crawler è nel Web.
Sul Web, il crawler si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi).
Durante l'analisi di un URL, identifica tutti gli hyperlink presenti nel documento e li aggiunge alla lista di URL da visitare.
Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito.
Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito.
All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate.
Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo.
Ecco di seguito una tabella con i nomi degli spider dei principali motori di ricerca
Nome spider | Motore di ricerca |
googlebot | |
fast Fast | Alltheweb |
slurp Inktomi | Yahoo! |
scooter | Altavista |
mercator | Altavista |
Ask Jeeves | Ask Jeeves |
teoma_agent | Teoma |
ia_archiver Alexa | Internet Archive |
Yahoo! Slurp | Yahoo |
Romilda |