Семалт нуди савете како да се борите са ботовима, пауковима и пајковима

Осим што ствара УРЛ-ове прилагођене претраживачима , .хтаццесс датотека омогућава вебмастерима да блокирају одређене ботове да приступе њиховој веб локацији. Један од начина да се ови роботи блокирају је кроз датотеку роботс.ткт. Међутим, менаџер за успех компаније Семалт Росс Барбер, наводи да је видео неке алате који игноришу овај захтев. Један од најбољих начина је употреба .хтаццесс датотеке како би их спречили да индексирају ваш садржај.

Шта су ови ботови?

Они су врста софтвера који претраживачи користе за брисање новог садржаја с Интернета у сврху индексирања.

Они обављају следеће задатке:

  • Посетите веб странице на које сте повезани
  • Проверите да ли у ХТМЛ коду постоје грешке
  • Они спремају веб странице на које повезујете и виде које веб странице повезују са вашим садржајем
  • Они индексирају ваш садржај

Међутим, неки су ботови злонамерни и претражују вашу веб локацију за адресе е-поште и обрасце који се обично користе за слање нежељених порука или нежељене поште. Други чак траже сигурносне рупе у вашем коду.

Шта је потребно за блокирање веб претраживача?

Пре употребе .хтаццесс датотеке, морате да проверите следеће ствари:

1. Ваша веб локација мора бити покренута на Апацхе серверу. Данас вам чак и оне компаније за веб хостинг пружају приступ потребној датотеци.

2. Требали бисте имати приступ сировим евиденцијама сервера на вашој веб локацији како бисте могли да пронађете који су ботови посећивали ваше веб странице.

Имајте на уму да нема начина да блокирате све штетне ботове уколико их не блокирате, чак и оне које сматрате корисним. Свакодневно се појављују нови ботови, а старији се мењају. Најефикаснији начин је да осигурате свој код и тешко ћете ботовима да вас пошаљу.

Идентификација ботова

Ботови се могу препознати по ИП адреси или из "Низ корисничког агента" који шаљу у заглављима ХТТП-а. На пример, Гоогле користи „Гооглебот“.

Ова листа ће вам можда требати са 302 бота ако већ имате име робота који желите да задржите користећи .хтаццесс

Други начин је преузимање свих датотека са дневника са сервера и отварање помоћу уређивача текста. Њихова локација на серверу може се променити у зависности од конфигурације вашег сервера. Ако их не можете пронаћи, потражите помоћ од свог веб домаћина.

Ако знате која је страница посећена или време посете, лакше је доћи са нежељеним ботом. Можете претражити датотеку дневника са овим параметрима.

Једном сте приметили које ботове треба да блокирате; затим их можете укључити у .хтаццесс датотеку. Имајте на уму да блокирање робота није довољно да га заустави. Може се вратити са новим ИП-ом или именом.

Како их блокирати

Преузмите копију .хтаццесс датотеке. По потреби направите резервне копије.

Метод 1: блокирање од стране ИП-а

Овај исјечак кода блокира робота користећи ИП адресу 197.0.0.1

Наручите забрани, дозволи

Одбити од 197.0.0.1

Први ред значи да ће сервер блокирати све захтеве који одговарају обрасцима које сте навели и дозволити свим осталим.

Други ред говори серверу да изда страницу 403: забрањено

2. метод: Блокирање од стране корисничких агената

Најлакши начин је употреба Апацхе-овог механизма за преписивање

РевритеЕнгине Он

ПрепишиЦонд% {ХТТП_УСЕР_АГЕНТ} БотУсерАгент

РевритеРуле. - [Ф, Л]

Први ред осигурава да је омогућен модул за преписивање. Други ред је услов на који се правило односи. "Ф" у реду 4 каже серверу да врати број 403: Забрањено, док "Л" значи да је ово последње правило.

Затим ћете отпремити .хтаццесс датотеку на ваш сервер и пребрисати постојећу. Временом ћете морати да ажурирате ИП адресу робота. У случају да направите грешку, само пренесите резервну копију коју сте направили.