Du bist nicht angemeldet (anmelden)
Seite 1
Google-Bot zähmen...
Moin,
reagiert der Google-Bot eigentlich auf das revisit-MetaTag? in den letzten Monaten steigt mein Traffic immer mehr an, und der GoogleBot hat einen nicht unerheblichen Anteil daran. Merkwürdig find ich dies vor allem, weil ich bspw. im Blog gar nicht mehr so aktiv bin und dort auch einige veraltete Postings gelöscht habe. Dennoch wird jeden Monat immer mehr Traffic erzeugt (letzter Monat fast 18GB nur durch den Google-Bot)...
reagiert der Google-Bot eigentlich auf das revisit-MetaTag? in den letzten Monaten steigt mein Traffic immer mehr an, und der GoogleBot hat einen nicht unerheblichen Anteil daran. Merkwürdig find ich dies vor allem, weil ich bspw. im Blog gar nicht mehr so aktiv bin und dort auch einige veraltete Postings gelöscht habe. Dennoch wird jeden Monat immer mehr Traffic erzeugt (letzter Monat fast 18GB nur durch den Google-Bot)...
könnte auch ein Angriff mit gefaktem User-Agent sein.
Ich frage mich, wie der Bot soviel Traffic verursachen sollte oder wie umfangreich ist deine Seite?
Mal geschaut welche Daten soviel ziehen?
Ich frage mich, wie der Bot soviel Traffic verursachen sollte oder wie umfangreich ist deine Seite?
Mal geschaut welche Daten soviel ziehen?
soweit ich weiß, ignoriert google das revisit-tag weitesgehend. was du auf jeden fall schon mal machen kannst, ist das aussperren des googleimg-bots und des mediabots (crawlt inhalte für adsense und co). außerdem kann es nicht schaden, das crawlen von diversen dateien (css/js/pdf/...) zu untersagen, die keine suchrelevanz haben und lediglich traffic verbrauchen.
einfach als robots.txt ins rootverzeichnis packen und gut ist.
damit klammerst du schon mal alles aus, was laut deiner stats am meisten bot-traffic verursacht.
einfach als robots.txt ins rootverzeichnis packen und gut ist.
User-Agent: Googlebot-ImageDisallow: /User-agent: Mediapartners-Google*Disallow: /User-agent: *Disallow: /*.gif$Disallow: /*.jpg$Disallow: /*.png$Disallow: /*.pdf$Disallow: /*.txt$Disallow: /*.php$Disallow: /*.inc$Disallow: /*.css$Disallow: /*.js$Disallow: */feed/Disallow: */trackback/
damit klammerst du schon mal alles aus, was laut deiner stats am meisten bot-traffic verursacht.
optional kannste auch zusätzlich eine vielzahl von spambots ausschließen. allerdings muss man da abwägen, schließlich frisst die robots.txt auch traffic. 
User-agent: grub-clientDisallow: /User-agent: grubDisallow: /User-agent: looksmartDisallow: /User-agent: WebZipDisallow: /User-agent: larbinDisallow: /User-agent: b2w/0.1Disallow: /User-agent: psbotDisallow: /User-agent: Python-urllibDisallow: /User-agent: NetMechanicDisallow: /User-agent: URL_Spider_ProDisallow: /User-agent: CherryPickerDisallow: /User-agent: EmailCollectorDisallow: /User-agent: EmailSiphonDisallow: /User-agent: WebBanditDisallow: /User-agent: EmailWolfDisallow: /User-agent: ExtractorProDisallow: /User-agent: CopyRightCheckDisallow: /User-agent: CrescentDisallow: /User-agent: SiteSnaggerDisallow: /User-agent: ProWebWalkerDisallow: /User-agent: CheeseBotDisallow: /User-agent: LNSpiderguyDisallow: /User-agent: ia_archiverDisallow: /User-agent: ia_archiver/1.6Disallow: /User-agent: TeleportDisallow: /User-agent: TeleportProDisallow: /User-agent: MIIxpcDisallow: /User-agent: TelesoftDisallow: /User-agent: Website QuesterDisallow: /User-agent: moget/2.1Disallow: /User-agent: WebZip/4.0Disallow: /User-agent: WebStripperDisallow: /User-agent: WebSaugerDisallow: /User-agent: WebCopierDisallow: /User-agent: NetAntsDisallow: /User-agent: Mister PiXDisallow: /User-agent: WebAutoDisallow: /User-agent: TheNomadDisallow: /User-agent: WWW-Collector-EDisallow: /User-agent: RMADisallow: /User-agent: libWeb/clsHTTPDisallow: /User-agent: asteriasDisallow: /User-agent: httplibDisallow: /User-agent: turingosDisallow: /User-agent: spannerDisallow: /User-agent: InfoNaviRobotDisallow: /User-agent: Harvest/1.5Disallow: /User-agent: Bullseye/1.0Disallow: /User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)Disallow: /User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0Disallow: /User-agent: CherryPickerSE/1.0Disallow: /User-agent: CherryPickerElite/1.0Disallow: /User-agent: WebBandit/3.50Disallow: /User-agent: NICErsPRODisallow: /User-agent: Microsoft URL Control - 5.01.4511Disallow: /User-agent: DittoSpyderDisallow: /User-agent: FoobotDisallow: /User-agent: WebmasterWorldForumBotDisallow: /User-agent: SpankBotDisallow: /User-agent: BotALotDisallow: /User-agent: lwp-trivial/1.34Disallow: /User-agent: lwp-trivialDisallow: /User-agent: BunnySlippersDisallow: /User-agent: Microsoft URL Control - 6.00.8169Disallow: /User-agent: URLy WarningDisallow: /User-agent: Wget/1.6Disallow: /User-agent: Wget/1.5.3Disallow: /User-agent: WgetDisallow: /User-agent: LinkWalkerDisallow: /User-agent: cosmosDisallow: /User-agent: mogetDisallow: /User-agent: hloaderDisallow: /User-agent: humanlinksDisallow: /User-agent: LinkextractorProDisallow: /User-agent: Offline ExplorerDisallow: /User-agent: Mata HariDisallow: /User-agent: LexiBotDisallow: /User-agent: Web Image CollectorDisallow: /User-agent: The IntraformantDisallow: /User-agent: True_Robot/1.0Disallow: /User-agent: True_RobotDisallow: /User-agent: BlowFish/1.0Disallow: /User-agent: JennyBotDisallow: /User-agent: MIIxpc/4.2Disallow: /User-agent: BuiltBotToughDisallow: /User-agent: ProPowerBot/2.14Disallow: /User-agent: BackDoorBot/1.0Disallow: /User-agent: toCrawl/UrlDispatcherDisallow: /User-agent: WebEnhancerDisallow: /User-agent: suzuranDisallow: /User-agent: VCI WebViewer VCI WebViewer Win32Disallow: /User-agent: VCIDisallow: /User-agent: Szukacz/1.4Disallow: /User-agent: QueryN MetasearchDisallow: /User-agent: Openfind data gathereDisallow: /User-agent: OpenfindDisallow: /User-agent: Xenu's Link Sleuth 1.1cDisallow: /User-agent: Xenu'sDisallow: /User-agent: ZeusDisallow: /User-agent: RepoMonkey Bait & Tackle/v1.01Disallow: /User-agent: RepoMonkeyDisallow: /User-agent: Microsoft URL ControlDisallow: /User-agent: OpenbotDisallow: /User-agent: URL ControlDisallow: /User-agent: Zeus Link ScoutDisallow: /User-agent: Zeus 32297 Webster Pro V2.9 Win32Disallow: /User-agent: Webster ProDisallow: /User-agent: EroCrawlerDisallow: /User-agent: LinkScan/8.1a UnixDisallow: /User-agent: Keyword Density/0.9Disallow: /User-agent: Kenjin SpiderDisallow: /User-agent: Iron33/1.0.2Disallow: /User-agent: Bookmark search toolDisallow: /User-agent: GetRight/4.2Disallow: /User-agent: FairAd ClientDisallow: /User-agent: GaisbotDisallow: /User-agent: Aqua_ProductsDisallow: /User-agent: Radiation Retriever 1.1Disallow: /User-agent: Flaming AttackBotDisallow: /User-agent: Oracle Ultra SearchDisallow: /User-agent: MSIECrawlerDisallow: /User-agent: PerManDisallow: /User-agent: searchpreviewDisallow: /
juchu!
während anfragen und erzeugter traffic am 1. und 2. märz konstant waren, sind die anfragen am 3. märz um 1/3 und der traffic sogar um die hälfte zurückgegangen!
mal schauen, ob das ein ausrutscher war oder der trend so bestehen bleibt.
während anfragen und erzeugter traffic am 1. und 2. märz konstant waren, sind die anfragen am 3. märz um 1/3 und der traffic sogar um die hälfte zurückgegangen!
mal schauen, ob das ein ausrutscher war oder der trend so bestehen bleibt.
Die Tendenz hält an! natürlich nicht so ein drastischer Einbruch wie vom 2. zum 3., aber gestern gab es noch weniger Anfragen und vor allem weniger Traffic als am 3... Scheint ja schnell zu funktionieren.
Editiert: 08.03.09, 00:02 Uhr
So, nachdem der tolle Abwärtstrend nach 2 Tagen wieder weg war, habe ich mich mal bei Google Mein Problem bei der Log-File-Analyse ist ja, dass ich drei unterschiedliche Domains habe, wovon 2 nur „Aufsätze“ sind, also auf ein Unterverzeichnis meiner Hauptdomain verweisen. Wenn dann die Seite „/“ viel Traffic erzeugt, kann das irgendeine dieser drei Domains sein, aber ich weiß nicht, welche.
Nun aber habe ich durch die Webmaster-Tools ausführliche Analysen über das Crawl-Verhalten des Google-Bots in/durch meine einzelnen Seiten.
Das „Opfer“ ist mein WordPress-Blog, was aber ziemlich inaktiv ist und auch nicht so viel Inhalt enthält. Hier aber die Statistik des Google-Bots:
Täglich gecrawlte Seiten

Täglich heruntergeladene Datenmenge

Oder in Worten:
Anzahl der täglich gecrawlten Seiten
Maximal 60.519
Durchschnittlich 21.932
Mindestens 2.403
Täglich heruntergeladene Datenmenge in KB
Maximal 1.313.807
Durchschnittlich 469.803
Mindestens 44.992
An guten Tagen verursacht der Google-Bot also mal eben ca. 1,3GB(!) Traffic beim Scannen meines Blogs, das ich im Prinzip nicht mehr aktiv weiterführe...
Jetzt habe ich die Robots-Text geändert und lasse den Bot für's Blog gar nicht mehr zum mal sehen ob es hilft...
Das ist zumindest die offizielle Angabe von Google selbst, also sind zumindest „Fremdbots“ erstmal auszuschließen.
60k Seiten hat mein Blog natürlich nicht. Aber ich weiß nicht, inwiefern diese internen Links, durch Tag-Clouds etc. und weiterer Filterung quasi zu „Endlosschleifen“ beim Crawlen führt?
60k Seiten hat mein Blog natürlich nicht. Aber ich weiß nicht, inwiefern diese internen Links, durch Tag-Clouds etc. und weiterer Filterung quasi zu „Endlosschleifen“ beim Crawlen führt?
Offensichtlich hat Google ca. 212.000 Seiten meines Blogs im Index. 
Jedes Tag hat seine eigene Seite (/blog/tag/tag1; /blog/tag/tag2 usw.), wobei dann wiederum alle Tags auch noch mal in Kombination als Seite auftauchen (also /blog/tag/tag1+tag2 usw.).
Ergebnisse 1 - 10 von ungefähr 212.000
Jedes Tag hat seine eigene Seite (/blog/tag/tag1; /blog/tag/tag2 usw.), wobei dann wiederum alle Tags auch noch mal in Kombination als Seite auftauchen (also /blog/tag/tag1+tag2 usw.).
Ja, aber bringt das wirklich so viel?
Unter Umständen werden trotzdem genauso viele Seiten gecrawlt, nur langsamer, oder? Wie auch immer, hab die Geschwindigkeit herabgesetzt, und vor allem das PlugIn SimpleTagging deaktiviert und damit auch die related Tags Funktion. Durch diese related Tags kommt es nämlich dazu, dass alle Tags bunt miteinander vermischt werden und etliche tausend Unterseiten entstehen, wie bspw. hier:
Unser Ziel ist, bei jedem Aufruf Ihrer Website so viele Seiten wie möglich zu crawlen, ohne die Bandbreite Ihres Servers zu belasten.
Sie können die Crawling-Geschwindigkeit (die Zeit von Googlebot zum Durchsuchen der Website) für Websites ändern, die sich auf der Root-Ebene befinden, beispielsweise www.example.com und http://subdomäne.example.com. Die neue Crawling-Geschwindigkeit ist 90 Tage gültig.
Die Crawling-Geschwindigkeit wirkt sich auf die Geschwindigkeit der Googlebot-Anfragen während des Crawling-Vorgangs aus. Sie wirkt sich nicht auf die Häufigkeit des Crawlings Ihrer Website durch Googlebot aus. Google ermittelt die empfohlene Geschwindigkeit anhand der Anzahl an Seiten Ihrer Website.
Unter Umständen werden trotzdem genauso viele Seiten gecrawlt, nur langsamer, oder? Wie auch immer, hab die Geschwindigkeit herabgesetzt, und vor allem das PlugIn SimpleTagging deaktiviert und damit auch die related Tags Funktion. Durch diese related Tags kommt es nämlich dazu, dass alle Tags bunt miteinander vermischt werden und etliche tausend Unterseiten entstehen, wie bspw. hier:
/blog/tag/Autopoiesis+Dissertation+Schnittstellen+Form+Kopplung+Netzwerk/
du scheinst aber ne menge duplicate content zu generieren.
würde es bei dir nicht sinn machen, dass verzeichnis /blog/tag/ für den robot auszuschließen? scheinbar kommt der bot ja noch anders auf die artikel.
eigentlich müsste dich der bot wegen dem ganzen DC haßen und gar nicht mehr wieder kommen.
ich weiß übrigens nicht, ob es zufall ist oder ob google das ganz toll fand, dass ich die bilder indexierung für unsere seite ausgeschlossen habe. auf jeden fall indexiert der seit letzter woche wie bekloppt seiten. scheinbar kann es sich jetzt auf das wesentlich konzentrieren (text) und belohnt das.
mich freut das natürlich.
weiß jemand, ob es für die robots auch wildcards gibt?
beispiel: blog/*/
grund: evtl. macht es sinn nur die erste seite von einem beitrag zu indexieren. sprich nur blog/derblogtitel/ und nicht noch alle folgeseiten blog/derblogtitel/1, blog/derblogtitel/2 etc.
ich werde mich wohl auch mal canonical link ausprobieren, um gegen DC zu arbeiten. bin mal gespannt, wie sich das auswirkt. hat schon jemand erfahrung?
würde es bei dir nicht sinn machen, dass verzeichnis /blog/tag/ für den robot auszuschließen? scheinbar kommt der bot ja noch anders auf die artikel.
eigentlich müsste dich der bot wegen dem ganzen DC haßen und gar nicht mehr wieder kommen.
ich weiß übrigens nicht, ob es zufall ist oder ob google das ganz toll fand, dass ich die bilder indexierung für unsere seite ausgeschlossen habe. auf jeden fall indexiert der seit letzter woche wie bekloppt seiten. scheinbar kann es sich jetzt auf das wesentlich konzentrieren (text) und belohnt das.
mich freut das natürlich.
weiß jemand, ob es für die robots auch wildcards gibt?
beispiel: blog/*/
grund: evtl. macht es sinn nur die erste seite von einem beitrag zu indexieren. sprich nur blog/derblogtitel/ und nicht noch alle folgeseiten blog/derblogtitel/1, blog/derblogtitel/2 etc.
ich werde mich wohl auch mal canonical link ausprobieren, um gegen DC zu arbeiten. bin mal gespannt, wie sich das auswirkt. hat schon jemand erfahrung?
Spoiler (anzeigen):
@toni: ich hoffe, es ist ok, dass ich deinen thread hier etwas allgemeiner ausbaue. schließlich geht es mir ja auch nur um das zähmen des GBots
@toni: ich hoffe, es ist ok, dass ich deinen thread hier etwas allgemeiner ausbaue. schließlich geht es mir ja auch nur um das zähmen des GBots
scopey schrieb am 09.03.09, 22:11 Uhr:
@toni: ich hoffe, es ist ok, dass ich deinen thread hier etwas allgemeiner ausbaue. schließlich geht es mir ja auch nur um das zähmen des GBots
Klar, kein Problem.
Übrigens scheinen meine Maßnahmen jetzt endlich Wirkung zu zeigen:
8. März:
43558 Anfragen, 1040054 KB
9, März
6444 Anfragen, 53173 KB
Auf 1/20 reduziert.


