dimanche 28 juillet 2013

Fun with logs - crawling robots

Après avoir étudié les visites "humaines" des logs de mon log, je me suis intéressé visites effectuées par des bots identifiables par leurs userAgent... Et on peu dire qu'elles sont nombreuses.

Les grands moteurs de recherche sont bien sur présents.





Google
Description de cette image, également commentée ci-après
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Bing (Microsoft)
Logo de Bing
"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
"msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"

Yahoo! (Je croyais qu'ils utilisaient le moteur de recherche de Bing?)
Description de cette image, également commentée ci-après
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo! Slurp China"

Mais aussi quelques moteurs moins connus

Exalead (Français)
Description de l'image  Exalead.png.
"Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)"

Voilà (Français)
Voila.gif
"Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ftgroup.com)"

Yacy (un moteur libre et décentralisé que j'ai découvert grace à mes logs)
Image illustrative de l'article YaCy
"yacybot (webportal-global; amd64 Linux 3.6.10-nrj-desktop-1rosa; java 1.7.0_b147-icedtea; Europe/fr) http://yacy.net/bot.html"


Baidu (Chinois)
Description de l'image  Baidu logo.svg.
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Jike (Chinois)

"Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)"

Yandex (Russe)
Yandex
"Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
"Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)"

Blekko



"Mozilla/5.0 (compatible; Blekkobot; ScoutJet; +http://blekko.com/about/blekkobot)"

gimme60





"gimme60 (Gimme60 Store ID Bot; gimme60.com)"


En plus de ces moteurs de recherches, dont on comprend facilement l'utilité, on trouve aussi des bots extracteurs de données dont la fonction est moins visible sur Internet.

alexa.com (un site qui note les autres sites)
Alexa Internet
"ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)"

Un bot de Twitter
Description de l'image  Twitter Bird.svg.
"Twitterbot/1.0"

Et celui d'un site qui gravite autour de Twitter

"Twitmunin Crawler http://www.twitmunin.com"

Et de nombreuse entreprise qui collectent et croise des données pour les vendre à leurs client
80legs
80legs web crawling
http://www.80legs.com/webcrawler.html;) Gecko/2008032620"


panscient
Panscient
"panscient.com"

Netcraft
Netcraft
"Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)"

ahrefs
Ahrefs
"Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"


gnip

"UnwindFetchor/1.0 (+http://www.gnip.com/)"

Topsy

"Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8"




Et quelques petits bots dont je n'ai pas réussi à connaitre le rôle
"Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)"
"Web front page analyser. robots.txt complaint (norw.acd.inst@gmail.com)"

La prochaine fois je vous parlerais des traces laissées par des visiteurs encore plus geek que moi!



Aucun commentaire:

Publier un commentaire