Google-Bot zähmen...

 


Toni
Veteran

03.03.09
13:20 Uhr
Moin,

reagiert der Google-Bot eigentlich auf das revisit-MetaTag? in den letzten Monaten steigt mein Traffic immer mehr an, und der GoogleBot hat einen nicht unerheblichen Anteil daran. Merkwürdig find ich dies vor allem, weil ich bspw. im Blog gar nicht mehr so aktiv bin und dort auch einige veraltete Postings gelöscht habe. Dennoch wird jeden Monat immer mehr Traffic erzeugt (letzter Monat fast 18GB nur durch den Google-Bot)...
Link zu diesem Beitrag in die Zwischenablage kopieren
phloo
Veteran

03.03.09
13:24 Uhr
könnte auch ein Angriff mit gefaktem User-Agent sein.
Ich frage mich, wie der Bot soviel Traffic verursachen sollte oder wie umfangreich ist deine Seite?

Mal geschaut welche Daten soviel ziehen?
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

03.03.09
13:34 Uhr
Naja, so richtig schlau werde ich aus den Statistiken nicht... Hier mal ein paar Ausschnitte


Link zu diesem Beitrag in die Zwischenablage kopieren
Fabu
Chefetage

03.03.09
13:43 Uhr
soweit ich weiß, ignoriert google das revisit-tag weitesgehend. was du auf jeden fall schon mal machen kannst, ist das aussperren des googleimg-bots und des mediabots (crawlt inhalte für adsense und co). außerdem kann es nicht schaden, das crawlen von diversen dateien (css/js/pdf/...) zu untersagen, die keine suchrelevanz haben und lediglich traffic verbrauchen.

einfach als robots.txt ins rootverzeichnis packen und gut ist.

  1. User-Agent: Googlebot-Image
  2. Disallow: /
  3.  
  4. User-agent: Mediapartners-Google*
  5. Disallow: /
  6.  
  7. User-agent: *
  8. Disallow: /*.gif$
  9. Disallow: /*.jpg$
  10. Disallow: /*.png$
  11. Disallow: /*.pdf$
  12. Disallow: /*.txt$
  13. Disallow: /*.php$
  14. Disallow: /*.inc$
  15. Disallow: /*.css$
  16. Disallow: /*.js$
  17. Disallow: */feed/
  18. Disallow: */trackback/
Quelltext in Zwischenablage kopieren

damit klammerst du schon mal alles aus, was laut deiner stats am meisten bot-traffic verursacht.
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

03.03.09
13:46 Uhr
kool, das werde ich gleich mal machen! dangge!
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

03.03.09
13:48 Uhr
aber den media-bot auch aussperren? im forum hab ich ja adsense-anzeigen drin.
Link zu diesem Beitrag in die Zwischenablage kopieren
Fabu
Chefetage

03.03.09
13:49 Uhr
achso, okay, dann lass das weg.
Link zu diesem Beitrag in die Zwischenablage kopieren
Fabu
Chefetage

03.03.09
13:54 Uhr
optional kannste auch zusätzlich eine vielzahl von spambots ausschließen. allerdings muss man da abwägen, schließlich frisst die robots.txt auch traffic. hammer

  1. User-agent: grub-client
  2. Disallow: /
  3.  
  4. User-agent: grub
  5. Disallow: /
  6.  
  7. User-agent: looksmart
  8. Disallow: /
  9.  
  10. User-agent: WebZip
  11. Disallow: /
  12.  
  13. User-agent: larbin
  14. Disallow: /
  15.  
  16. User-agent: b2w/0.1
  17. Disallow: /
  18.  
  19. User-agent: psbot
  20. Disallow: /
  21.  
  22. User-agent: Python-urllib
  23. Disallow: /
  24.  
  25. User-agent: NetMechanic
  26. Disallow: /
  27.  
  28. User-agent: URL_Spider_Pro
  29. Disallow: /
  30.  
  31. User-agent: CherryPicker
  32. Disallow: /
  33.  
  34. User-agent: EmailCollector
  35. Disallow: /
  36.  
  37. User-agent: EmailSiphon
  38. Disallow: /
  39.  
  40. User-agent: WebBandit
  41. Disallow: /
  42.  
  43. User-agent: EmailWolf
  44. Disallow: /
  45.  
  46. User-agent: ExtractorPro
  47. Disallow: /
  48.  
  49. User-agent: CopyRightCheck
  50. Disallow: /
  51.  
  52. User-agent: Crescent
  53. Disallow: /
  54.  
  55. User-agent: SiteSnagger
  56. Disallow: /
  57.  
  58. User-agent: ProWebWalker
  59. Disallow: /
  60.  
  61. User-agent: CheeseBot
  62. Disallow: /
  63.  
  64. User-agent: LNSpiderguy
  65. Disallow: /
  66.  
  67. User-agent: ia_archiver
  68. Disallow: /
  69.  
  70. User-agent: ia_archiver/1.6
  71. Disallow: /
  72.  
  73. User-agent: Teleport
  74. Disallow: /
  75.  
  76. User-agent: TeleportPro
  77. Disallow: /
  78.  
  79. User-agent: MIIxpc
  80. Disallow: /
  81.  
  82. User-agent: Telesoft
  83. Disallow: /
  84.  
  85. User-agent: Website Quester
  86. Disallow: /
  87.  
  88. User-agent: moget/2.1
  89. Disallow: /
  90.  
  91. User-agent: WebZip/4.0
  92. Disallow: /
  93.  
  94. User-agent: WebStripper
  95. Disallow: /
  96.  
  97. User-agent: WebSauger
  98. Disallow: /
  99.  
  100. User-agent: WebCopier
  101. Disallow: /
  102.  
  103. User-agent: NetAnts
  104. Disallow: /
  105.  
  106. User-agent: Mister PiX
  107. Disallow: /
  108.  
  109. User-agent: WebAuto
  110. Disallow: /
  111.  
  112. User-agent: TheNomad
  113. Disallow: /
  114.  
  115. User-agent: WWW-Collector-E
  116. Disallow: /
  117.  
  118. User-agent: RMA
  119. Disallow: /
  120.  
  121. User-agent: libWeb/clsHTTP
  122. Disallow: /
  123.  
  124. User-agent: asterias
  125. Disallow: /
  126.  
  127. User-agent: httplib
  128. Disallow: /
  129.  
  130. User-agent: turingos
  131. Disallow: /
  132.  
  133. User-agent: spanner
  134. Disallow: /
  135.  
  136. User-agent: InfoNaviRobot
  137. Disallow: /
  138.  
  139. User-agent: Harvest/1.5
  140. Disallow: /
  141.  
  142. User-agent: Bullseye/1.0
  143. Disallow: /
  144.  
  145. User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
  146. Disallow: /
  147.  
  148. User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
  149. Disallow: /
  150.  
  151. User-agent: CherryPickerSE/1.0
  152. Disallow: /
  153.  
  154. User-agent: CherryPickerElite/1.0
  155. Disallow: /
  156.  
  157. User-agent: WebBandit/3.50
  158. Disallow: /
  159.  
  160. User-agent: NICErsPRO
  161. Disallow: /
  162.  
  163. User-agent: Microsoft URL Control - 5.01.4511
  164. Disallow: /
  165.  
  166. User-agent: DittoSpyder
  167. Disallow: /
  168.  
  169. User-agent: Foobot
  170. Disallow: /
  171.  
  172. User-agent: WebmasterWorldForumBot
  173. Disallow: /
  174.  
  175. User-agent: SpankBot
  176. Disallow: /
  177.  
  178. User-agent: BotALot
  179. Disallow: /
  180.  
  181. User-agent: lwp-trivial/1.34
  182. Disallow: /
  183.  
  184. User-agent: lwp-trivial
  185. Disallow: /
  186.  
  187. User-agent: BunnySlippers
  188. Disallow: /
  189.  
  190. User-agent: Microsoft URL Control - 6.00.8169
  191. Disallow: /
  192.  
  193. User-agent: URLy Warning
  194. Disallow: /
  195.  
  196. User-agent: Wget/1.6
  197. Disallow: /
  198.  
  199. User-agent: Wget/1.5.3
  200. Disallow: /
  201.  
  202. User-agent: Wget
  203. Disallow: /
  204.  
  205. User-agent: LinkWalker
  206. Disallow: /
  207.  
  208. User-agent: cosmos
  209. Disallow: /
  210.  
  211. User-agent: moget
  212. Disallow: /
  213.  
  214. User-agent: hloader
  215. Disallow: /
  216.  
  217. User-agent: humanlinks
  218. Disallow: /
  219.  
  220. User-agent: LinkextractorPro
  221. Disallow: /
  222.  
  223. User-agent: Offline Explorer
  224. Disallow: /
  225.  
  226. User-agent: Mata Hari
  227. Disallow: /
  228.  
  229. User-agent: LexiBot
  230. Disallow: /
  231.  
  232. User-agent: Web Image Collector
  233. Disallow: /
  234.  
  235. User-agent: The Intraformant
  236. Disallow: /
  237.  
  238. User-agent: True_Robot/1.0
  239. Disallow: /
  240.  
  241. User-agent: True_Robot
  242. Disallow: /
  243.  
  244. User-agent: BlowFish/1.0
  245. Disallow: /
  246.  
  247. User-agent: JennyBot
  248. Disallow: /
  249.  
  250. User-agent: MIIxpc/4.2
  251. Disallow: /
  252.  
  253. User-agent: BuiltBotTough
  254. Disallow: /
  255.  
  256. User-agent: ProPowerBot/2.14
  257. Disallow: /
  258.  
  259. User-agent: BackDoorBot/1.0
  260. Disallow: /
  261.  
  262. User-agent: toCrawl/UrlDispatcher
  263. Disallow: /
  264.  
  265. User-agent: WebEnhancer
  266. Disallow: /
  267.  
  268. User-agent: suzuran
  269. Disallow: /
  270.  
  271. User-agent: VCI WebViewer VCI WebViewer Win32
  272. Disallow: /
  273.  
  274. User-agent: VCI
  275. Disallow: /
  276.  
  277. User-agent: Szukacz/1.4
  278. Disallow: /
  279.  
  280. User-agent: QueryN Metasearch
  281. Disallow: /
  282.  
  283. User-agent: Openfind data gathere
  284. Disallow: /
  285.  
  286. User-agent: Openfind
  287. Disallow: /
  288.  
  289. User-agent: Xenu's Link Sleuth 1.1c
  290. Disallow: /
  291.  
  292. User-agent: Xenu's
  293. Disallow: /
  294.  
  295. User-agent: Zeus
  296. Disallow: /
  297.  
  298. User-agent: RepoMonkey Bait & Tackle/v1.01
  299. Disallow: /
  300.  
  301. User-agent: RepoMonkey
  302. Disallow: /
  303.  
  304. User-agent: Microsoft URL Control
  305. Disallow: /
  306.  
  307. User-agent: Openbot
  308. Disallow: /
  309.  
  310. User-agent: URL Control
  311. Disallow: /
  312.  
  313. User-agent: Zeus Link Scout
  314. Disallow: /
  315.  
  316. User-agent: Zeus 32297 Webster Pro V2.9 Win32
  317. Disallow: /
  318.  
  319. User-agent: Webster Pro
  320. Disallow: /
  321.  
  322. User-agent: EroCrawler
  323. Disallow: /
  324.  
  325. User-agent: LinkScan/8.1a Unix
  326. Disallow: /
  327.  
  328. User-agent: Keyword Density/0.9
  329. Disallow: /
  330.  
  331. User-agent: Kenjin Spider
  332. Disallow: /
  333.  
  334. User-agent: Iron33/1.0.2
  335. Disallow: /
  336.  
  337. User-agent: Bookmark search tool
  338. Disallow: /
  339.  
  340. User-agent: GetRight/4.2
  341. Disallow: /
  342.  
  343. User-agent: FairAd Client
  344. Disallow: /
  345.  
  346. User-agent: Gaisbot
  347. Disallow: /
  348.  
  349. User-agent: Aqua_Products
  350. Disallow: /
  351.  
  352. User-agent: Radiation Retriever 1.1
  353. Disallow: /
  354.  
  355. User-agent: Flaming AttackBot
  356. Disallow: /
  357.  
  358. User-agent: Oracle Ultra Search
  359. Disallow: /
  360.  
  361. User-agent: MSIECrawler
  362. Disallow: /
  363.  
  364. User-agent: PerMan
  365. Disallow: /
  366.  
  367. User-agent: searchpreview
  368. Disallow: /
Quelltext in Zwischenablage kopieren
Link zu diesem Beitrag in die Zwischenablage kopieren
Matze
Chefetage

03.03.09
14:00 Uhr
Irrelevanter Beitrag (anzeigen):

Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

03.03.09
14:18 Uhr
ouw
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

04.03.09
13:09 Uhr
juchu!

während anfragen und erzeugter traffic am 1. und 2. märz konstant waren, sind die anfragen am 3. märz um 1/3 und der traffic sogar um die hälfte zurückgegangen!

mal schauen, ob das ein ausrutscher war oder der trend so bestehen bleibt. cheer
Link zu diesem Beitrag in die Zwischenablage kopieren
Fabu
Chefetage

04.03.09
13:10 Uhr
hörthört
Link zu diesem Beitrag in die Zwischenablage kopieren
scopey
Stammgast

05.03.09
09:13 Uhr
Supertipp !! -)
Werde ich direkt mal ausprobieren.
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

05.03.09
09:15 Uhr
Die Tendenz hält an! natürlich nicht so ein drastischer Einbruch wie vom 2. zum 3., aber gestern gab es noch weniger Anfragen und vor allem weniger Traffic als am 3... Scheint ja schnell zu funktionieren.
Link zu diesem Beitrag in die Zwischenablage kopieren
Dominic
Moderator

05.03.09
10:33 Uhr
Irrelevanter Beitrag (anzeigen):

Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

07.03.09
23:56 Uhr
Editiert: 08.03.09, 00:02 Uhr
So, nachdem der tolle Abwärtstrend nach 2 Tagen wieder weg war, habe ich mich mal bei Google eek informiert. Dadurch bin ich auf die wunderbaren Google-Webmaster-Tools gestoßen.

Mein Problem bei der Log-File-Analyse ist ja, dass ich drei unterschiedliche Domains habe, wovon 2 nur „Aufsätze“ sind, also auf ein Unterverzeichnis meiner Hauptdomain verweisen. Wenn dann die Seite „/“ viel Traffic erzeugt, kann das irgendeine dieser drei Domains sein, aber ich weiß nicht, welche.

Nun aber habe ich durch die Webmaster-Tools ausführliche Analysen über das Crawl-Verhalten des Google-Bots in/durch meine einzelnen Seiten.

Das „Opfer“ ist mein WordPress-Blog, was aber ziemlich inaktiv ist und auch nicht so viel Inhalt enthält. Hier aber die Statistik des Google-Bots:

Täglich gecrawlte Seiten


Täglich heruntergeladene Datenmenge


Oder in Worten:
Anzahl der täglich gecrawlten Seiten
Maximal 60.519
Durchschnittlich 21.932
Mindestens 2.403

Täglich heruntergeladene Datenmenge in KB
Maximal 1.313.807 ouw
Durchschnittlich 469.803
Mindestens 44.992

An guten Tagen verursacht der Google-Bot also mal eben ca. 1,3GB(!) Traffic beim Scannen meines Blogs, das ich im Prinzip nicht mehr aktiv weiterführe... ^^

Jetzt habe ich die Robots-Text geändert und lasse den Bot für's Blog gar nicht mehr zum mal sehen ob es hilft...
Link zu diesem Beitrag in die Zwischenablage kopieren
Dominic
Moderator

08.03.09
01:22 Uhr
ähm... ich gehe mal irgendwie davon aus, dass dein blog garkeine 60k seiten hat, oder?
Link zu diesem Beitrag in die Zwischenablage kopieren
Fabu
Chefetage

08.03.09
02:10 Uhr
vollkommen ominöse zahlen. sogar bei uns verursacht der bot wesentlich weniger traffic. eek
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

08.03.09
10:17 Uhr
Das ist zumindest die offizielle Angabe von Google selbst, also sind zumindest „Fremdbots“ erstmal auszuschließen.

60k Seiten hat mein Blog natürlich nicht. Aber ich weiß nicht, inwiefern diese internen Links, durch Tag-Clouds etc. und weiterer Filterung quasi zu „Endlosschleifen“ beim Crawlen führt?
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

08.03.09
14:59 Uhr
Offensichtlich hat Google ca. 212.000 Seiten meines Blogs im Index. ouw
Ergebnisse 1 - 10 von ungefähr 212.000

Jedes Tag hat seine eigene Seite (/blog/tag/tag1; /blog/tag/tag2 usw.), wobei dann wiederum alle Tags auch noch mal in Kombination als Seite auftauchen (also /blog/tag/tag1+tag2 usw.).
Link zu diesem Beitrag in die Zwischenablage kopieren
Lima
Stammgast

08.03.09
22:14 Uhr
In den Webmaster Tools kann man doch die Crawling-Geschwindigkeit einstellen ).
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

09.03.09
07:11 Uhr
Ja, aber bringt das wirklich so viel?

haha
Unser Ziel ist, bei jedem Aufruf Ihrer Website so viele Seiten wie möglich zu crawlen, ohne die Bandbreite Ihres Servers zu belasten.

Sie können die Crawling-Geschwindigkeit (die Zeit von Googlebot zum Durchsuchen der Website) für Websites ändern, die sich auf der Root-Ebene befinden, beispielsweise www.example.com und http://subdomäne.example.com. Die neue Crawling-Geschwindigkeit ist 90 Tage gültig.

Die Crawling-Geschwindigkeit wirkt sich auf die Geschwindigkeit der Googlebot-Anfragen während des Crawling-Vorgangs aus. Sie wirkt sich nicht auf die Häufigkeit des Crawlings Ihrer Website durch Googlebot aus. Google ermittelt die empfohlene Geschwindigkeit anhand der Anzahl an Seiten Ihrer Website.

Unter Umständen werden trotzdem genauso viele Seiten gecrawlt, nur langsamer, oder? Wie auch immer, hab die Geschwindigkeit herabgesetzt, und vor allem das PlugIn SimpleTagging deaktiviert und damit auch die related Tags Funktion. Durch diese related Tags kommt es nämlich dazu, dass alle Tags bunt miteinander vermischt werden und etliche tausend Unterseiten entstehen, wie bspw. hier:
/blog/tag/Autopoiesis+Dissertation+Schnittstellen+Form+Kopplung+Netzwerk/
Link zu diesem Beitrag in die Zwischenablage kopieren
scopey
Stammgast

09.03.09
22:11 Uhr
du scheinst aber ne menge duplicate content zu generieren.
würde es bei dir nicht sinn machen, dass verzeichnis /blog/tag/ für den robot auszuschließen? scheinbar kommt der bot ja noch anders auf die artikel.
eigentlich müsste dich der bot wegen dem ganzen DC haßen und gar nicht mehr wieder kommen.

ich weiß übrigens nicht, ob es zufall ist oder ob google das ganz toll fand, dass ich die bilder indexierung für unsere seite ausgeschlossen habe. auf jeden fall indexiert der seit letzter woche wie bekloppt seiten. scheinbar kann es sich jetzt auf das wesentlich konzentrieren (text) und belohnt das.
mich freut das natürlich.

weiß jemand, ob es für die robots auch wildcards gibt?
beispiel: blog/*/

grund: evtl. macht es sinn nur die erste seite von einem beitrag zu indexieren. sprich nur blog/derblogtitel/ und nicht noch alle folgeseiten blog/derblogtitel/1, blog/derblogtitel/2 etc.

ich werde mich wohl auch mal canonical link ausprobieren, um gegen DC zu arbeiten. bin mal gespannt, wie sich das auswirkt. hat schon jemand erfahrung?

Spoiler (anzeigen):

@toni: ich hoffe, es ist ok, dass ich deinen thread hier etwas allgemeiner ausbaue. schließlich geht es mir ja auch nur um das zähmen des GBots
Link zu diesem Beitrag in die Zwischenablage kopieren
Toni
Veteran

10.03.09
07:42 Uhr
scopey schrieb am 09.03.09, 22:11 Uhr:

@toni: ich hoffe, es ist ok, dass ich deinen thread hier etwas allgemeiner ausbaue. schließlich geht es mir ja auch nur um das zähmen des GBots

Klar, kein Problem.

Übrigens scheinen meine Maßnahmen jetzt endlich Wirkung zu zeigen:

8. März:
43558 Anfragen, 1040054 KB
9, März
6444 Anfragen, 53173 KB

Auf 1/20 reduziert. hörthört
Link zu diesem Beitrag in die Zwischenablage kopieren
 
#