Robots.txt Vs Meta Robots Тэг: Што лепш?

  1. Чаму файл robots.txt?
  2. абмежаванні Robots.txt
  3. варыянты Robots.txt
  4. Дырэктыва Robots.txt Wildcard
  5. Тэставанне robots.txt з інструментамі для вэб-майстроў
  6. Meta Robots Tag
  7. Meta Robots тэг супраць Robots.txt

Малюнак Крыніца: https://www.flickr.com/photos/peyri/48825808/

Мэта файла robots.txt, таксама вядомы як пратакол выключэння робатаў, каб даць вэб-майстрам кантраляваць тое, што старонкі робаты (звычайна званыя павукі) могуць сканаваць і індэксаваць на іх сайце. Тыповы файл robots.txt, размешчаны на сэрвэры вашага сайта, павінен уключаць URL карты вашага сайта і любыя іншыя параметры, якія вы хочаце паставіць на месцы.

Калі робат хоча наведаць старонку на вашым сайце, перш чым ён робіць гэта ён правярае свой файл robots.txt (змешчаны ў www.domain.com/robots.txt - адчувальна да рэгістра, калі вы называеце гэта Robots.txt гэта не будзе працаваць ) і бачыць, што ваш файл robots.txt ўтрымлівае наступнае выключэнне:

Агент карыстальніка: *

Disallow: /
«User-Agent: *» кажа робату, што гэта правіла ставіцца да ўсіх робатам, а не толькі пошукавай сістэмы або Google ботаў.

«Disallow: /" кажа робатам, што не дазволена наведваць любыя старонкі на гэтым дамене. Пры стварэнні файла robots.txt, вы павінны быць асцярожныя, якія параметры вы ўсталявалі, як калі б ваш robots.txt выглядае як у прыкладзе вышэй гэта азначае, што сайт не будзе сканавацца Google!

Заўвага: Некаторыя робаты будуць ігнараваць ваш файл robots.txt, як гэта толькі дырэктыва і так будзе яшчэ доступ да старонкам на вашым сайце , незалежна. Яны, як правіла, шкоднасныя боты, якія могуць збіраюць інфармацыю з вашага сайта. Некаторыя могуць быць злымі, нават калі стварыць падзел у файле robots.txt, каб выключыць яго з сканавання вашага сайта, так як гэтыя робаты звычайна ігнаруюць свой файл robots.txt ён будзе няўдалым. Блакаванне IP-адрасы робата можа быць варыянтам, але так як гэтыя спамеры звычайна выкарыстоўваюць розныя IP-адрас можа быць стомным працэсам.

Чаму файл robots.txt?

Некаторыя вэб-майстры думаюць, што яны хочуць, каб усе робаты, каб мець магчымасць сканаваць увесь свой сайт, што ім не патрэбны файл robots.txt, аднак гэта не так. Файл robots.txt павінен змяшчаць месцазнаходжанне вашага сайта, так што лягчэй для павукоў, асабліва пошукавыя павукі, каб атрымаць доступ да ўсіх старонках на сайце. Акрамя таго, неабходна будзе мець файл robots.txt на месцы, калі вы знаходзіцеся ў працэсе распрацоўкі новага сайта, які ў прамым эфіры на вашым серверы, але вы не хочаце быць праіндэксаваныя Google яшчэ. Калі вы карыстаецеся файл robots.txt, пераканайцеся, што вы разумееце, што вы выключаеце з абыходу, як ён прымае толькі адну памылку для ўсяго сайта не будзе сканавацца!

абмежаванні Robots.txt

Важна памятаць, што з дапамогай файла robots.txt ў якасці сродку для абароны і схаваць канфідэнцыйную інфармацыю не толькі дрэнная практыка, але можа таксама парушаць Закон аб абароне дадзеных, калі інфармацыя захоўваецца неналежным чынам. Ваш файл robots.txt можа быць даступны любым, не толькі робаты, таму калі ў вас ёсць якая-небудзь інфармацыя на вашым сайце, што вы не хочаце быць прагледжаны кімсьці іншым, чым хто ён меў на ўвазе тады найбольш бяспечны падыход будзе абараніць паролем старонку / дакумент.

  • Інструкцыі ў файле robots.txt толькі дырэктывы
    Інструкцыі, якія вы аб'яўляеце ў файле robots.txt не маюць магчымасці кантраляваць паводзіны павукоў на вашым сайце, але ў стане адрозніць, якія шукальнікі могуць і не могуць атрымаць доступ да сайта. Аднак у той час як законныя сканеры, такія як Googlebot і іншыя пошукавыя робаты будуць падпарадкоўвацца правілам, вы, названыя ў файле robots.txt, іншыя шукальнікі могуць проста ігнараваць правілы ў файле robots.txt ці не глядзець на яго наогул.
  • Сінтаксіс ў файле robots.txt можна інтэрпрэтаваць па- рознаму рознымі гусенічныя

Важна, што пры стварэнні файла robots.txt вы ведаеце правільны сінтаксіс для вырашэння канкрэтных вэб-сканараў як дырэктывы, якія лёгка Googlebot чытаць не можа быць зразуметыя іншымі вэб-сканарамі гэта азначае, што яны могуць быць не ў стане прытрымлівацца інструкцыям, вы паставілі на месца.

  • Дырэктывы ў файле robots.txt не будзе перашкаджаць вашаму URL з яго спасылаецца на іншых сайтах

Google будзе прытрымлівацца дырэктывы ў файле robots.txt што азначае, што ўсе файлы, якія вы выключылі не будзе сканавацца або індэксавацца, аднак гэта не будзе выдаліць усе сляды вашага URL з Google ў цэлым. Спасылкі на ваш сайт на іншых сайтах, такія як каталогі і якарнай тэкст на іншых вэб-старонках будуць адлюстроўвацца ў выніках пошуку Google, як вы не можаце ўносіце змены на іншых сайтах з дапамогай вашага robots.txt. Тым не менш, каб ваш URL з'яўляцца ў любым месцы ў Google SERP-х вы можаце выкарыстоўвалі камбінацыю метадаў блакавання URL, такія як абарона паролем і даданне мета-тэгі дырэктыву індэксацыі ў ваш HTML нароўні забараніўшы робату доступ у файле robots.txt.

варыянты Robots.txt

У вас ёсць шэраг варыянтаў, калі гаворка ідзе аб вашым robots.txt і што вы хочаце яго ўтрымліваць, ніжэй прыведзены некаторыя прыклады, якія могуць дапамагчы вам стварыць свой!

Адчувальнасць да рэгістра
Robots.txt дырэктывы адчувальныя да рэгістра, так што калі вы забараніць /logo-image.gif дырэктыва будзе блакаваць http://www.domain.com/logo-image.gif але http://www.domain.com/Logo-Image .gif будзе па-ранейшаму даступны для робатаў.

Дазволіць усім робатам сканаваць ўвесь сайт
Агент карыстальніка: *
Disallow:

Выключыць усе робат (шкоднасныя і Google боты) ад усяго сайта
Агент карыстальніка: *
Disallow: /

Выключыць канкрэтны робат з канкрэтнай тэчкі / файла на вашым сайце
Агент карыстальніка: Examplebot
Disallow: / няма-робатаў /

Заўвага: Вы можаце мець толькі адну тэчку / файл на «Disallow:» лініі, калі ў вас ёсць больш чым у адным месцы вы хочаце выключыць , вам прыйдзецца дадаць некалькі забараняльных ліній.

Дазволіць адзін канкрэтны робат і выключыць ўсе іншыя робаты
User-Agent: Googlebot
Disallow:

User-Agent: * Disallow: / Exclude канкрэтнага робата User-Agent: SpamBotDisallow: /

Заяўляючы карту сайта ў файле robots.txt
Агент карыстальніка: *
Disallow:
Карта сайта: http://www.domain.com/sitemap.xml

Заўвага: Дэкларацыя карты сайта павінна быць абсалютнай URL ня адносны URL

Выключыць усе робат з цэлай тэчкі акрамя аднаго файла / малюнкаў
Агент карыстальніка: *
Disallow: / мае фота-
Дазволіць: /my-photos/logo.jpg

Дырэктыва Robots.txt Wildcard

Пошукавыя сістэмы, такія як Google і Bing дазваляюць выкарыстоўваць групавыя сімвалы ў файлах robots.txt, так што вы не павінны пералічыць мноства URL, таму што тады ўтрымліваюць адны і тыя ж знакі.

Disallow: * мабільны

Вышэй дырэктыва будзе блакаваць робат доступ да любога URL-адрасы на вашым сайце, якія ўтрымліваюць тэрмін «мабільны», такія як:

  • / мабільны
  • / Паслугі / мабільнай аптымізацыі
  • / Блог / значэнне, з-рухомай РРС-таргоў
  • /images/mobile.jpg
  • /phone/mobile34565.html

Іншая дырэктыва падстаноўных, якія вы можаце выкарыстоўваць у файле robots.txt з'яўляецца «$» характар.

Disallow: * .gif $

У прыкладзе дырэктыва блакуе сканеры ад магчымасці атрымаць доступ да любога URL, які змяшчае тып файла «.gif». Wildcards можа быць надзвычай магутным і варта выкарыстоўваць асцярожна, так як з прыведзеных вышэй прыкладам, $ падстаноўныя будзе блакаваць любыя шляхі да файлаў, якія таксама ўтрымліваюць «.gif», такія як /my-files.gif/blog-posts.

Тэставанне robots.txt з інструментамі для вэб-майстроў

Калі ў вас ёсць уліковы запіс з дапамогай Інструментаў для вэб-майстроў і дзейны адрас, вы можаце выкарыстоўваць robots.txt інструмент Tester. З дапамогай інструмента вы можаце праверыць змены ў файл robots.txt і ўбачыць ўплыў, перш чым ўсталяваць яго ў прамым эфіры. Вы таксама можаце прагледзець папярэднія версіі файлаў і паглядзець, якія радкі ў файле robots.txt блакуе пэўную старонку, гэта можа перашкодзіць вам рабіць памылкі і страты трафіку / даход.

Акрамя таго, можна ўвесці URL-адрас, каб праверыць, калі ён заблякаваны дырэктывы ў файле robots.txt і лёгка змяніць яго адпаведным чынам. Інструмент можа быць знойдзены ў Crawl выпадальнага меню ў меню Прылады для вэб-майстроў, праверце цяпер твой!

Meta Robots Tag

З пункту гледжання SEO, калі вы хочаце, каб заблакаваць Google сканаваць канкрэтную старонку на вашым сайце і індэксаваць яе ў сваіх старонках вынікаў пошуку, то лепш за ўсё практыка выкарыстоўваць мета робатаў тэг, каб сказаць ім, што яны маюць права на доступ да гэтай старонцы, але ня паказваць у выніках пошуку. Вашы робаты Мета-тэг павінен выглядаць і быць змешчаны ў <HEAD> раздзеле сайта:

<META NAME = "робаты» змест = »NOINDEX»>

Калі вы хочаце забараніць шукальнік індэксаваць змесціва на старонцы і прадухілення яго наступнага любыя з спасылак, мета-тэгі робатаў будуць выглядаць наступным чынам:

<META NAME = "робаты» змест = »NOINDEX, NOFOLLOW»>

Агляд асноўных мета-робатаў тэгу даступных каманд:

  • Індэкс - Усе пошукавыя сістэмы могуць індэксаваць ўтрыманне на гэтай старонцы
  • Выконвайце - Усе пошукавыя сістэмы могуць поўзаць праз ўнутраныя спасылкі на вэб - старонцы
  • Noindex - прадухіліць прызначаную старонку з уключэннем у індэкс
  • Nofollow - перашкодзіць Google ботам наступных якіх - небудзь спасылак на гэтай старонцы. Звярніце ўвагу, што гэта адрозніваецца ад отн = "NOFOLLOW" атрыбут спасылкі.
  • Noarchive - прадухіляе кэшуюцца версіі старонкі паказваць у выніках пошуку
  • Nosnippet - прадухіляе старонку кэшуюцца і апісанне , якое з'яўляецца ніжэй старонкі ў выніках пошуку
  • NOODP - прадухіляе апісанне Open Project Даведніка для старонкі , які замяняе апісанне набору ўручную для гэтай старонкі
  • Noimageindex - прадухіляе Google індэксацыю малюнкаў на старонцы
  • Notranslate - прадухіляе старонка перакладаецца ў Google SERPs

Вы можаце выкарыстоўваць некалькі каманд у вашым мета робатаў тэг. Калі вы хочаце, каб прадухіліць старонку на вашым сайце з кэшуюцца усімі пошукавымі сістэмамі, а таксама прадухіліць апісання Open Directory замяніць бягучыя апісання, можна выкарыстоўваць наступныя каманды: noarchive і NOODP. Вашы мета-тэгі робатаў будуць выглядаць наступным чынам:

<META NAME = "робаты» змест = »NOARCHIVE, NOODP«>

Калі вы хочаце аўтаматыка не індэксаваць гэтую старонку, але ідуць унутраным спасылках на гэтай старонцы, ваш мета робатаў тэг будзе выглядаць наступным чынам. Гэта палажэнне рэкамендуецца SEO, таму што, калі якія-небудзь спасылкі ідуць на старонкі вы не хочаце індэксаваць мы ўсё яшчэ хочаце спасылку справядлівасці па спасылцы, каб цячы праз астатнюю частку сайта.

<META NAME = "робаты» змест = »NOINDEX, прытрымлівацца» />

Meta Robots тэг супраць Robots.txt

У агульных рысах, калі вы хочаце deindex старонку або каталог з кампаніі Google Вынікі пошуку, то мы рэкамендуем вам выкарыстоўваць «NoIndex» мета-тэг, а не robots.txt дырэктыву, як з дапамогай гэтага метаду наступны раз, калі ваш сайт прасканаваў старонку будзе deindexed, а гэта азначае, што вам не прыйдзецца адправіць запыт на выдаленне URL. Тым не менш, вы ўсё яшчэ можаце выкарыстоўваць robots.txt дырэктыву ў спалучэнні з выдаленнем старонкі Webmaster Tools для дасягнення гэтай мэты.

Выкарыстанне мета-робатаў тэг таксама гарантуе, што ваша спасылка справядлівасьці не губляецца, з дапамогай каманды «прытрымлівацца».

Robots.txt файлы лепш за ўсё падыходзяць для забараняючы цэлы раздзел сайта, такія як катэгорыя, у той час як мета-тэг з'яўляецца больш эфектыўным пры забараняючы асобныя файлы і старонкі. Вы можаце выбраць, каб выкарыстоўваць як мета-тэг робаты і файл robots.txt, як ні мае ўладу над іншым, але «NoIndex» заўсёды мае ўладу над «індэксных» запытаў.

Вярнуцца ў блог Txt?
Txt?