Kan deze bot kwaad?

On February 20, 2007, in Actualiteit, Web/Technologie, Weblogs, by Hans Mestrum

Ik krijg ineens deze bot op bezoek: Python-urllib. En die gaat me toch te keer. Meer dan 300.000 bits al deze maand en meer dan 3 gb.
Weet iemand wat dit is? Moet ik die blocken? En zo ja hoe dan?

Ik heb even in wat forums gekeken en zie dat ie via robots.txt geblocked kan worden. Maar op een ander forum zag ik dat het wel eens de Google Bot kan zijn…
Iemand ervaring mee?


Ook interessant om te lezen:

  1. En wat is er dan nieuw hier op deze MovableType blog?

    Tja, dat is nogal wat. Ik zie zelf ook nog steeds nieuwe dingen. Maar vooruit, hier alvast een overzichtje van wat ik hier als nieuw...

  2. links for 2007-02-21

    PHP Nuke Nederland Lijst met robots die je kunt blokkeren met robots.txt. (tags: robots bots robots.txt)...

  3. Le Web3: geen internet, geen vibes, wel warmte

    Bah, geen internet. Vanochtend heeft iemand per ongeluk ergens een kabel doorgeknipt…. Het programma is niet spectaculair vanochtend, behalve dan de presentatie van Hans Rosling....

  4. Google Sitemaps, MovableType en andere zoekmachines

    Om je weblog goed te laten indexeren door Google is het goed om een sitemap te hebben. Hoe je dat allemaal kunt doen staat uitvoerig...

  5. Screencast forum

    Voor iedereen die geinteresseerd is in screencasting is dit screencasting forum een aanrader. De rubrieken: - howto- screencasts (met heel veel screencasts over allerlei onderwerpen!)-...

 
  • http://www.gorissen.info/Pierre Pierre

    Hans, is dit niet gewoon een indicatie dat iemand de standard URLlib Module van Python gebruikt? Dat kan dus iedereen zijn die aan het spelen is met een doe-het-zelf zoekmachine of pagina-indexeer script of zo.
    Komen de verzoeken steeds van hetzelfde IP-adres of adressen? En zo ja, kun je achterhalen waar die vandaan komen? Als ze uit China of ander Aziatische landen komen kun je in het algemeen probleemloos blokkeren.
    Voor je niet-Engelstalige posts is de kans namelijk klein dat je de hele Nederlands sprekende gemeenschap in Azië als bezoekers hebt.
    Blokkeren op IP-nummer kan door in je .htaccess het volgende op te nemen:
    order allow,deny
    allow from all
    deny from 130.208.204.5
    deny from 148.233.229.236
    deny from asianet.co.th
    deny from uninet.net.mx
    deny from telstra.net
    deny from uninet.net.mx
    deny from 62.150.40.142
    deny from 59x87x125x108.ap59.ftth.ucom.ne.jp
    deny from intlab-fw.intlab.toin.ac.jp
    deny from 148.233.229.235
    deny from softbank218122090112.bbtec.net
    deny from pool_2451103-170.etb.net.co
    deny from pc156032.ztv.ne.jp
    deny from 148.233.159.24
    deny from 142.165.3.43
    deny from Static-IP-cr200118105172.cable.net.co
    deny from philippi-s2.mypcstv.com
    deny from 195.55.133.76
    deny from 163.148.100.85
    deny from 82.73.78.157
    De adressen hierboven zijn die wat bij mij er nu in staan.
    Je geeft hiermee aan dat voor de acties “GET HEAD POST” je eerst zult aangeven wie mag en wie niet mag “order allow,deny”. Daarna geef je voor de allow aan dat in principe iedereen mag “allow from all” en daarna geef je per regel met een “deny from” aan wel domein/gebruiker/IP-adres niet mag komen spelen.

  • http://www.gorissen.info/Pierre Pierre

    Hmm, de preview liet mijn < en > goed zien, maar in de definitieve versie zijn ze weg.
    Bovenaan staat %%Limit GET HEAD POST%%
    waarbij je de eerste %% moet vervangen door een “kleiner dan” teken en de laatste uiteraard door een “groter dan” teken.
    Onderaan de staat dan %%/Limit%%

  • http://andrescholten.nl André Scholten

    In feite zou een simpele robots.txt de boel al moeten blokkeren:
    User-agent: Python-urllib
    Disallow: /
    Maar dan moet die module wel zo geschreven zijn dat hij het robots.txt bestand ook respecteert. Na 2 minuten zoeken krijg ik het idee dat hij dat wel doet.

  • http://www.hansonexperience.com Hans Mestrum

    Hallo Pierre en André,
    bedankt voor jullie reactie. Ik heb zoals Andre aangeeft robots.txt aangepast. Ik zie daarop nog geen verbeteringen. Hoe lang duurt het voordat een bot dat toepast?

  • http://andrescholten.nl André Scholten

    Normaal gesproken is de regel dat een bot altijd eerst de robots.txt controleerd alvorens te gaan spideren. Maar in het geval van deze kan het zijn dat hij zo is aangepast dat hij robots.txt negeert. Het is een open-source bot script wat redelijk makkelijk aan te passen is.

  • http://www.hansonexperience.com Hans Mestrum

    @pierre: Zo als ik het nu kan zien komt die traffic van 205.158.61.219. En dat blijkt een IP via een internet provider in de VS te zijn: Xo Communications. Die naam kwam ik meer tegen ivm verspreiden/door laten van virussen/spam.
    Kan ik nog meer info ergens vinden over dit IP nummer?

  • http://www.gorissen.info/Pierre Pierre

    @Hans: Wat ik van hun website begrijp doen ze een heleboel dingen (niet persé slecht tenminste niet af te leiden van hun website). Ik neem even aan dat het gewoon een van hun klanten is die al dan niet bedoeld aan het hobby-en is. Ik zou zeggen, gewoon blokken dat adres.
    Je zou hun customer care kunnen benaderen via http://www.xo.com/contact/care/index.html maar dat zou mij eerlijk gezegd te veel werk zijn.

  • http://www.hansonexperience.com Hans Mestrum

    @pierre: ik heb het ip adres geblokkeerd en jouw lijstje er ook bij gezet.
    Thx!

Looking for something?

Use the form below to search the site:

Still not finding what you're looking for? Drop a comment on a post or contact us so we can take care of it!

Techniek studeer je bij de HAN
iBlogPro by PageLines