← Zpět na všechny články blogu

Blokace botů

David Janík
David Janík Aktualizováno 22. 11. 2024 – 6 min. čtení
Blog

Bot je softwarová aplikace, která je naprogramována k provádění určitých úkolů. Boti (nebo také roboti) jsou automatizovaní, což znamená, že běží podle naprogramovaných pokynů, aniž by je lidský uživatel musel ručně spouštět. Tito roboti často napodobují nebo nahrazují chování lidského uživatele. Obvykle dělají opakující se úkoly a mohou je dělat mnohem rychleji, než by to dokázali lidští uživatelé.

Roboti obvykle fungují přes síť. Více než polovinu internetového provozu tvoří roboti, kteří skenují obsah, komunikují s webovými stránkami, chatují s uživateli nebo hledají útočné cíle

Samozřejmě ne všichni roboti jsou špatní. Např. roboti vyhledávačů indexují obsah, abychom jej mohli najít. Antivirové společnosti zase skenují síť, aby analyzovaly škodlivý software a informovaly o nových útocích. Akademici mohou zase kontrolovat šíření fake news a analyzovat data z vyhledávačů. 

Jak vypadá škodlivá aktivita botů?

Bohužel špatných botů je mnohem víc. Jsou naprogramováni tak, aby pronikali do uživatelských účtů, skenovali na webu kontaktní informace a prováděli další škodlivé činnosti. Pokud je robot připojen k internetu, bude mít určitě přidruženou IP adresu.

Boti mohou provádět také:

  • Stahování a skenování obsahu na webu
  • DoS nebo DDoS
  • Prolamovali hesla hrubou silou
  • Sbírat e-mailové adresy po internetu
  • Klikat na reklamy a manipulovat analytické nástroje

Jak vypadá dobrý bot?

I dobří boti plují po vodách internetu. Dobrý bot je ten, který dělá užitečné úkoly nebo pomáhá uživatelům internetu a přitom nikomu neškodí uživatelské zkušenosti. 

Existuje mnoho druhů dobrých robotů, každý navržený pro různé úkoly. Zde jsou nějaké příklady:

  • Boti pro vyhledávače – Procházejí nebo kontrolují obsah téměř na všech webových stránkách internetu a poté tento obsah tzv. indexuji, aby se mohl zobrazit ve výsledcích vyhledávání uživatelů. Provozují je vyhledávače jako Google, DuckDuckGo nebo Bing.
  • Copyright boti – Procházejí všemožné platformy nebo weby a hledají obsah, který může porušovat autorské právo. Tyto boty může provozovat jakákoli osoba nebo společnost, která vlastní materiál chráněný autorskými právy. Umí ověřovat duplicitní texty, hudbu, obrázky nebo videa.
  • Boti pro monitoring webu – Monitorují metriky webových stránek (sledování zpětných odkazů, výpadky) a mohou upozornit uživatele na zásadní změny.
  • Komerční roboti – Vyhledávají informace na internetu. Tyto roboty mohou provozovat společnosti zabývající se průzkumem trhu, které sledují zpravodajství nebo recenze zákazníků, reklamní sítě, které optimalizují místa, kde zobrazují reklamy, nebo agentury SEO, které procházejí webové stránky klientů.
  • Feed boti – Procházejí internet a hledají obsah, který stojí za to přidat do informačního kanálu platformy. Tyto roboty mohou provozovat weby agregující obsah nebo sítě sociálních médií.
  • Chatboti – Napodobují lidskou konverzaci tím, že odpovídají uživatelům pomocí předem naprogramovaných odpovědí. Někteří chatboti jsou dostatečně komplexní, aby mohli vést dlouhé konverzace.
  • Osobní asistenční boti: Jako Siri nebo Alexa: Ačkoli jsou tyto programy mnohem pokročilejší než typický bot, přesto se jedná o boty: počítačové programy, které procházejí web a vyhledávají data.

Freelo - Nástroj na řízení úkolů a projektů

Přidej se, pozvi svůj tým a klienty, rozděl práci a sleduj, jak se úkoly dají do pohybu.

Co je robots.txt?

Správná správa robotů začíná správným nastavením pravidel v souboru robots.txt webových stránek. Soubor robots.txt je textový soubor, který je umístěn na webovém serveru a určuje pravidla pro všechny roboty, kteří přistupují k hostované webové stránce nebo aplikaci. Tato pravidla definují, které stránky mohou a nemohou roboti procházet, které odkazy mají a nemají sledovat a další požadavky na chování botů.

Dobří boti se těmito pravidly řídí. Pokud například majitel webu nechce, aby se určitá stránka na jeho webu zobrazovala ve výsledcích vyhledávání Google, můžete do souboru robots.txt napsat pravidlo a roboti od Google tuto stránku nezaindexují. Ačkoli soubor robots.txt nemůže tato pravidla skutečně prosadit, dobří roboti jsou naprogramováni tak, aby soubor vyhledali a řídili se pravidly dříve, než udělají cokoliv jiného.

Špatní roboti však často soubor robots.txt ignorují nebo si ho přečtou, aby zjistili, jaký obsah se web snaží udržet mimo dosah robotů, a pak k němu přistupují. 

Správa botů tedy vyžaduje aktivnější přístup než pouhé stanovení pravidel pro chování botů v souboru robots.txt.

VPS Centrum

Vyzkoušejte zdarma naši aplikaci pro správu serveru a domén. Budete si připadat jako zkušený administrátor.

Blokace botů pomocí .htaccess

Rychlá a účinná blokace je pomocí souboru .htaccess. Jakmile totiž soubor uložíte, hned se pravidla aktivují.
Stačí upravit .htaccess, který máte v kořenové složce /www.

Můžete zablokovat IP adresu botů nebo user-agenta.

    Require all granted 
    Require not ip 127.0.0.1/32   #zablokuje IP adresu nebo celý rozsah
    Require not env SemrushBot    #zablokuje user-agenta

Zároveň můžete IP adresy  nebo user-agenty povolit.

    Require ip MOJE_IP_V_KANCELARI/32
    Require ip MOJE_IP_V_DOMA/32
    Require ip MOJE_IP_VPN/32
    Require env Google

Boti často mění IP adresu, takže tímto si člověk moc nepomůže. Proto raději doporučujeme blokovat podle jména.

Máme pro vás jeden takový zápis.

SetEnvIf User-Agent "DISCo" bad_bot
SetEnvIf User-Agent "eCatch" bad_bot
SetEnvIf User-Agent "EirGrabber" bad_bot
SetEnvIf User-Agent "EmailSiphon" bad_bot
SetEnvIf User-Agent "EmailWolf" bad_bot
SetEnvIf User-Agent "ExtractorPro" bad_bot
SetEnvIf User-Agent "EyeNetIE" bad_bot
SetEnvIf User-Agent "FlashGet" bad_bot
SetEnvIf User-Agent "GetRight" bad_bot
SetEnvIf User-Agent "GetWeb!" bad_bot
SetEnvIf User-Agent "Go!Zilla" bad_bot
SetEnvIf User-Agent "Go-Ahead-Got-It" bad_bot
SetEnvIf User-Agent "GrabNet" bad_bot
SetEnvIf User-Agent "Grafula" bad_bot
SetEnvIf User-Agent "HMView" bad_bot
SetEnvIf User-Agent "MegaIndex.ru" bad_bot
SetEnvIf User-Agent "HTTrack" bad_bot
SetEnvIf User-Agent "InterGET" bad_bot
SetEnvIf User-Agent "JetCar" bad_bot
SetEnvIf User-Agent "larbin" bad_bot
SetEnvIf User-Agent "LeechFTP" bad_bot
SetEnvIf User-Agent "Navroad" bad_bot
SetEnvIf User-Agent "NearSite" bad_bot
SetEnvIf User-Agent "NetAnts" bad_bot
SetEnvIf User-Agent "NetSpider" bad_bot
SetEnvIf User-Agent "NetZIP" bad_bot
SetEnvIf User-Agent "Octopus" bad_bot
SetEnvIf User-Agent "PageGrabber" bad_bot
SetEnvIf User-Agent "PpcBrowser" bad_bot
SetEnvIf User-Agent "RealDownload" bad_bot
SetEnvIf User-Agent "ReGet" bad_bot
SetEnvIf User-Agent "SiteSnagger" bad_bot
SetEnvIf User-Agent "SmartDownload" bad_bot
SetEnvIf User-Agent "SuperBot" bad_bot
SetEnvIf User-Agent "SuperHTTP" bad_bot
SetEnvIf User-Agent "Surfbot" bad_bot
SetEnvIf User-Agent "tAkeOut" bad_bot
SetEnvIf User-Agent "VoidEYE" bad_bot
SetEnvIf User-Agent "WebAuto" bad_bot
SetEnvIf User-Agent "WebCopier" bad_bot
SetEnvIf User-Agent "WebFetch" bad_bot
SetEnvIf User-Agent "WebLeacher" bad_bot
SetEnvIf User-Agent "WebReaper" bad_bot
SetEnvIf User-Agent "WebSauger" bad_bot
SetEnvIf User-Agent "WebStripper" bad_bot
SetEnvIf User-Agent "WebWhacker" bad_bot
SetEnvIf User-Agent "WebZIP" bad_bot
SetEnvIf User-Agent "Widow" bad_bot
SetEnvIf User-Agent "WWWOFFLE" bad_bot
SetEnvIf User-Agent "Zeus" bad_bot
SetEnvIf User-Agent "AhrefsBot" bad_bot
SetEnvIf User-Agent "DotBot" bad_bot
SetEnvIf User-Agent "BaiduSpider" bad_bot
SetEnvIf User-Agent "CCBot" bad_bot
SetEnvIf User-Agent "MJ12bot" bad_bot
SetEnvIf User-Agent "SiteAnalyzerbot" bad_bot
SetEnvIf User-Agent "BLEXBot" bad_bot
SetEnvIf User-Agent "Uptimerobot" bad_bot
SetEnvIf User-Agent "AspiegelBot" bad_bot
SetEnvIf User-Agent "VelenPublicWebCrawler" bad_bot
SetEnvIf User-Agent "Xenu Link Sleuth" bad_bot
SetEnvIf User-Agent "sarpstatbot" bad_bot
SetEnvIf User-Agent "ZoominfoBot (zoominfobot at zoominfo
SetEnvIf User-Agent "Nimbostratus-Bot" bad_bot
SetEnvIf User-Agent "SEOkicks" bad_bot
SetEnvIf User-Agent "Seekport Crawler" bad_bot
SetEnvIf User-Agent "Alphabot" bad_bot
SetEnvIf User-Agent "magpie-crawler" bad_bot
SetEnvIf User-Agent "LinkpadBot" bad_bot
SetEnvIf User-Agent "Linguee bot" bad_bot
SetEnvIf User-Agent "Semtix.cz" bad_bot
SetEnvIf User-Agent "Statusoid" bad_bot
SetEnvIf User-Agent "BananaBot" bad_bot
SetEnvIf User-Agent "CFNetwork" bad_bot
SetEnvIf User-Agent "python-request" bad_bot
SetEnvIf User-Agent "FirmoGraph" bad_bot
SetEnvIf User-Agent "PetalBot" bad_bot
SetEnvIf User-Agent "TombaPublicWebCrawler" bad_bot
SetEnvIf User-Agent "barkrowler" bad_bot
SetEnvIf User-Agent "serpstatbot" bad_bot
SetEnvIf User-Agent "Archive Team" bad_bot
SetEnvIf User-Agent "Sogou web spider" bad_bot

<RequireAll>
    Require all granted
    Require not env bad_bot
</RequireAll>

Zůstaňte s námi v kontaktu

Jednou za měsíc posíláme souhrn novinek. Nemusíte se bát, spamovat vás nebudeme a odhlásit se můžete kdykoliv...

Karel Dytrych
Tým Váš Hosting
Vyzkoušejte náš trial na týden zdarma

Garance 14denní záruky vrácení peněz

Vyzkoušejte server na týden zdarma

Vyzkoušet server