Select Page

Kan deze bot kwaad?

Ik krijg ineens deze bot op bezoek: Python-urllib. En die gaat me toch te keer. Meer dan 300.000 bits al deze maand en meer dan 3 gb.
Weet iemand wat dit is? Moet ik die blocken? En zo ja hoe dan?

Ik heb even in wat forums gekeken en zie dat ie via robots.txt geblocked kan worden. Maar op een ander forum zag ik dat het wel eens de Google Bot kan zijn…
Iemand ervaring mee?

About The Author

Hans Mestrum

Hans is al 12 jaar bezig op het gebied van Social & Media. Momenteel is hij vlogger bij de Hogeschool van Arnhem en Nijmegen (HAN). Daarvoor houdt hij o.a. deze weblog bij met videoblogs van projecten, evenementen etc. Daarnaast schrijft hij op persoonlijke titel over trends, zijn (professionele) leven en overwegingen. Bekijk ook zijn profiel website

8 Comments

  1. Pierre

    Hans, is dit niet gewoon een indicatie dat iemand de standard URLlib Module van Python gebruikt? Dat kan dus iedereen zijn die aan het spelen is met een doe-het-zelf zoekmachine of pagina-indexeer script of zo.
    Komen de verzoeken steeds van hetzelfde IP-adres of adressen? En zo ja, kun je achterhalen waar die vandaan komen? Als ze uit China of ander Aziatische landen komen kun je in het algemeen probleemloos blokkeren.
    Voor je niet-Engelstalige posts is de kans namelijk klein dat je de hele Nederlands sprekende gemeenschap in Azië als bezoekers hebt.
    Blokkeren op IP-nummer kan door in je .htaccess het volgende op te nemen:
    order allow,deny
    allow from all
    deny from 130.208.204.5
    deny from 148.233.229.236
    deny from asianet.co.th
    deny from uninet.net.mx
    deny from telstra.net
    deny from uninet.net.mx
    deny from 62.150.40.142
    deny from 59x87x125x108.ap59.ftth.ucom.ne.jp
    deny from intlab-fw.intlab.toin.ac.jp
    deny from 148.233.229.235
    deny from softbank218122090112.bbtec.net
    deny from pool_2451103-170.etb.net.co
    deny from pc156032.ztv.ne.jp
    deny from 148.233.159.24
    deny from 142.165.3.43
    deny from Static-IP-cr200118105172.cable.net.co
    deny from philippi-s2.mypcstv.com
    deny from 195.55.133.76
    deny from 163.148.100.85
    deny from 82.73.78.157
    De adressen hierboven zijn die wat bij mij er nu in staan.
    Je geeft hiermee aan dat voor de acties “GET HEAD POST” je eerst zult aangeven wie mag en wie niet mag “order allow,deny”. Daarna geef je voor de allow aan dat in principe iedereen mag “allow from all” en daarna geef je per regel met een “deny from” aan wel domein/gebruiker/IP-adres niet mag komen spelen.

    Antwoord
  2. Pierre

    Hmm, de preview liet mijn < en > goed zien, maar in de definitieve versie zijn ze weg.
    Bovenaan staat %%Limit GET HEAD POST%%
    waarbij je de eerste %% moet vervangen door een “kleiner dan” teken en de laatste uiteraard door een “groter dan” teken.
    Onderaan de staat dan %%/Limit%%

    Antwoord
  3. André Scholten

    In feite zou een simpele robots.txt de boel al moeten blokkeren:
    User-agent: Python-urllib
    Disallow: /
    Maar dan moet die module wel zo geschreven zijn dat hij het robots.txt bestand ook respecteert. Na 2 minuten zoeken krijg ik het idee dat hij dat wel doet.

    Antwoord
  4. Hans Mestrum

    Hallo Pierre en André,
    bedankt voor jullie reactie. Ik heb zoals Andre aangeeft robots.txt aangepast. Ik zie daarop nog geen verbeteringen. Hoe lang duurt het voordat een bot dat toepast?

    Antwoord
  5. André Scholten

    Normaal gesproken is de regel dat een bot altijd eerst de robots.txt controleerd alvorens te gaan spideren. Maar in het geval van deze kan het zijn dat hij zo is aangepast dat hij robots.txt negeert. Het is een open-source bot script wat redelijk makkelijk aan te passen is.

    Antwoord
  6. Hans Mestrum

    @pierre: Zo als ik het nu kan zien komt die traffic van 205.158.61.219. En dat blijkt een IP via een internet provider in de VS te zijn: Xo Communications. Die naam kwam ik meer tegen ivm verspreiden/door laten van virussen/spam.
    Kan ik nog meer info ergens vinden over dit IP nummer?

    Antwoord
  7. Pierre

    @Hans: Wat ik van hun website begrijp doen ze een heleboel dingen (niet persé slecht tenminste niet af te leiden van hun website). Ik neem even aan dat het gewoon een van hun klanten is die al dan niet bedoeld aan het hobby-en is. Ik zou zeggen, gewoon blokken dat adres.
    Je zou hun customer care kunnen benaderen via http://www.xo.com/contact/care/index.html maar dat zou mij eerlijk gezegd te veel werk zijn.

    Antwoord
  8. Hans Mestrum

    @pierre: ik heb het ip adres geblokkeerd en jouw lijstje er ook bij gezet.
    Thx!

    Antwoord

Leave a reply

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

Welkom!

hansmestrum About me
Hans Mestrum

Leuk dat je hier op mijn weblog bent. De video's en foto's die je hier vindt, zijn door mij gemaakt voor o.a. de Hogeschool van Arnhem en Nijmegen (HAN), waar ik videoblogger en social mediaspecialist ben.

Laatste video’s

Recente Tweets

Archieven

Categorieën

Zonnemeter

Hoeveel Watt produceren mijn zonnepanelen op dit moment?

Pin It on Pinterest

Shares
Share This