Moja ya zana za kusimamia uorodheshaji wa tovuti na injini za utaftaji ni faili ya robots.txt. Inatumiwa haswa kuzuia roboti zote au tu fulani kupakua yaliyomo kwenye vikundi kadhaa vya kurasa. Hii hukuruhusu kuondoa "takataka" katika matokeo ya injini za utaftaji na, wakati mwingine, inaboresha sana kiwango cha rasilimali. Ni muhimu kuwa na faili sahihi ya robots.txt kwa matumizi ya mafanikio.
Muhimu
mhariri wa maandishi
Maagizo
Hatua ya 1
Tengeneza orodha ya roboti ambayo sheria maalum za kutengwa zitawekwa au maagizo ya kiwango kilichopanuliwa cha robots.txt, na vile vile maagizo yasiyo ya kawaida na mahususi (upanuzi wa injini maalum ya utaftaji) itatumika. Ingiza katika orodha hii maadili ya uwanja wa Wakala wa Mtumiaji wa vichwa vya ombi la HTTP vilivyotumwa na roboti zilizochaguliwa kwenye seva ya tovuti. Majina ya roboti pia yanaweza kupatikana katika sehemu za kumbukumbu za tovuti za injini za utaftaji.
Hatua ya 2
Chagua vikundi vya URL za rasilimali za tovuti ambayo ufikiaji unapaswa kukataliwa kwa kila moja ya roboti kwenye orodha iliyokusanywa katika hatua ya kwanza. Fanya operesheni sawa kwa roboti zingine zote (seti isiyojulikana ya bots ya kuorodhesha). Kwa maneno mengine, matokeo yanapaswa kuwa orodha kadhaa zilizo na viungo kwa sehemu za wavuti, vikundi vya kurasa au vyanzo vya yaliyomo kwenye media ambayo ni marufuku kuorodhesha. Kila orodha lazima ifanane na roboti tofauti. Inapaswa pia kuwa na orodha ya URL zilizokatazwa kwa bots nyingine zote. Tengeneza orodha kulingana na kulinganisha muundo mzuri wa wavuti na eneo halisi la data kwenye seva, na pia kwa kupanga URL za kurasa kulingana na tabia zao za kazi. Kwa mfano, unaweza kujumuisha kwenye orodha ya kukana yaliyomo kwenye orodha za huduma (zilizopangwa kwa eneo) au kurasa zote za wasifu wa mtumiaji (zilizopangwa kwa kusudi).
Hatua ya 3
Chagua ishara za URL kwa kila moja ya rasilimali zilizomo kwenye orodha zilizojumuishwa katika hatua ya pili. Unaposindika orodha za kutengwa kwa roboti kwa kutumia tu maagizo ya kawaida ya robots.txt na roboti ambazo hazijafafanuliwa, onyesha sehemu za kipekee za URL za urefu wa juu. Kwa seti zilizobaki za anwani, unaweza kuunda templeti kulingana na uainishaji wa injini maalum za utaftaji.
Hatua ya 4
Unda faili ya robots.txt. Ongeza vikundi vya maagizo kwake, ambayo kila moja inalingana na seti ya sheria za kukataza kwa roboti maalum, orodha ambayo ilikusanywa katika hatua ya kwanza. Mwisho unapaswa kufuatiwa na kikundi cha maagizo kwa roboti zingine zote. Tenga vikundi vya sheria vilivyo na laini moja tupu. Kila sheria inapaswa kuanza na maagizo ya Mtumiaji-wakala kutambua roboti, ikifuatiwa na agizo la Ruhusu, ambalo linakataza vikundi vya URL vya kuorodhesha. Fanya mistari iliyopatikana katika hatua ya tatu na maadili ya maagizo ya Ruhusu. Tenga maagizo na maana zake na koloni Fikiria mfano ufuatao: Wakala wa Mtumiaji: YandexDisallow: / temp / data / images / Wakala wa Mtumiaji: * Ruhusu: / temp / data / Seti hii ya maagizo inaelekeza roboti kuu ya Injini ya utaftaji ya Yandex sio kuorodhesha URL ambayo ina substring / temp / data / picha /. Pia inazuia roboti zingine zote kutoka kuorodhesha URL zilizo na / temp / data /.
Hatua ya 5
Ongeza robots.txt na maagizo ya kawaida yaliyopanuliwa au maagizo maalum ya injini za utaftaji. Mifano ya maagizo kama haya ni: Mwenyeji, Ramani ya tovuti, Kiwango cha ombi, Wakati wa Ziara, Kuchelewesha Kutambaa.