Udelad søgerobot

Tags:    php

Hejsa

Jeg ved man ved hjælp af kode kan identificere søgerobotter og derved kan bruge PHP kode til at få bestemte dele af en side til at opføre sig anderledes end hvis det er en bruger der kommer ind på siden.

FX. Så skal en counter på siden tælle brugeren, når han/hun kommer ind på siden og derved give et hit på tælleren. Skulle Googlebot derimod kigge en tur forbi siden for at søge og eventuelt opdatere indholdet på siden, så skal den ikke tælles med som et nyt hit.

Er der nogen der har nogen links eller forslag til hvor eller hvordan man kan løse dette problem.

Jeg kunne forestille mig det kunne gøres ved hjælp af en IF sætning, hvor nogle kriterier skal være opfyldt for at give et hit på tælleren.

Jeg skal bruge det til at begrænse mit forbrug for serveren i forbindelse med videoklip. Lige nu kigger de forskellige søgerobotter forbi med jævne mellemrum for at se om der er sket noget nyt på en side der hedder video.php og genererer derfor også en del trafik, da videofilerne bliver afspillet hver gang en søgerobot kommer forbi.

Grunden til at jeg vil bruge PHP til at exclude søgerobotterne er, at jeg gerne vil have indexeret sidderne men gerne vil have mulighed for at vise robotten en side, hvor der ikke bliver afspillet et videoklip i mediaplayeren, hver gang de kigger forbi.

Derfor mener jeg heller ikke jeg kan bruge robot.txt på lige denne side, da den vil gøre at jeg enten kan disallow eller allow robotter på siden video.php.

Håber der er et par flinke udviklere der kan hjælpe mig lidt på vej med noget kode til mit problem.

Mvh

Sol



8 svar postet i denne tråd vises herunder
2 indlæg har modtaget i alt 2 karma
Sorter efter stemmer Sorter efter dato
GoogleBotten bruger "Googlebot" som dens identifikation i User-Agent headeren.


En hurtig søgning på google viser at det ikke kun er google bot, som google bot bruger så følgende burde gøre det du mangler

Fold kodeboks ind/udKode 




Naivt at tro man kan sikre google vha hostheaderen..

Her er blot en række:

(kilde: iplist.com -> ikke specielt go')

# UA "AdsBot-Google (+http://www.google.com/adsbot.html)"
# UA "Googlebot-Image/1.0"
# UA "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
# UA "Googlebot/Test (+http://www.googlebot.com/bot.html)"
# UA "Googlebot/Test"
# UA "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
# UA "Mediapartners-Google/2.1"
# UA "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
# UA "gsa-crawler (Enterprise; S4-E9LJ2B82FJJAA; me@mycompany.com)"


Det er lang mere sikkert og udbredt til cloaking (som man godt kan tillade sig at kalde det) at benytte kendte IP adresser fra søgemaskinerne..


Google: (steder med kun 3 sæt cifre betyder det fjerde er wildcard.)

209.185.108
209.185.253
209.85.238.11
216.239.33.96
216.239.33.97
216.239.33.98
216.239.33.99
216.239.37.98
216.239.37.99
216.239.39.98
216.239.39.99
216.239.41.96
216.239.41.97
216.239.41.98
216.239.41.99
216.239.45.4
216.239.46
216.239.51.96
216.239.51.97
216.239.51.98
216.239.51.99
216.239.53.98
216.239.53.99
216.239.57.96
216.239.57.97
216.239.57.98
216.239.57.99
216.239.59.98
216.239.59.99
216.33.229.163
64.233.173.193
64.233.173.194
64.233.173.195
64.233.173.196
64.233.173.197
64.233.173.198
64.233.173.199
64.233.173.200
64.233.173.201
64.233.173.202
64.233.173.203
64.233.173.204
64.233.173.205
64.233.173.206
64.233.173.207
64.233.173.208
64.233.173.209
64.233.173.210
64.233.173.211
64.233.173.212
64.233.173.213
64.233.173.214
64.233.173.215
64.233.173.216
64.233.173.217
64.233.173.218
64.233.173.219
64.233.173.220
64.233.173.221
64.233.173.222
64.233.173.223
64.233.173.224
64.233.173.225
64.233.173.226
64.233.173.227
64.233.173.228
64.233.173.229
64.233.173.230
64.233.173.231
64.233.173.232
64.233.173.233
64.233.173.234
64.233.173.235
64.233.173.236
64.233.173.237
64.233.173.238
64.233.173.239
64.233.173.240
64.233.173.241
64.233.173.242
64.233.173.243
64.233.173.244
64.233.173.245
64.233.173.246
64.233.173.247
64.233.173.248
64.233.173.249
64.233.173.250
64.233.173.251
64.233.173.252
64.233.173.253
64.233.173.254
64.233.173.255
64.68.80
64.68.81
64.68.82
64.68.83
64.68.84
64.68.85
64.68.86
64.68.87
64.68.88
64.68.89
64.68.90.1
64.68.90.10
64.68.90.11
64.68.90.12
64.68.90.129
64.68.90.13
64.68.90.130
64.68.90.131
64.68.90.132
64.68.90.133
64.68.90.134
64.68.90.135
64.68.90.136
64.68.90.137
64.68.90.138
64.68.90.139
64.68.90.14
64.68.90.140
64.68.90.141
64.68.90.142
64.68.90.143
64.68.90.144
64.68.90.145
64.68.90.146
64.68.90.147
64.68.90.148
64.68.90.149
64.68.90.15
64.68.90.150
64.68.90.151
64.68.90.152
64.68.90.153
64.68.90.154
64.68.90.155
64.68.90.156
64.68.90.157
64.68.90.158
64.68.90.159
64.68.90.16
64.68.90.160
64.68.90.161
64.68.90.162
64.68.90.163
64.68.90.164
64.68.90.165
64.68.90.166
64.68.90.167
64.68.90.168
64.68.90.169
64.68.90.17
64.68.90.170
64.68.90.171
64.68.90.172
64.68.90.173
64.68.90.174
64.68.90.175
64.68.90.176
64.68.90.177
64.68.90.178
64.68.90.179
64.68.90.18
64.68.90.180
64.68.90.181
64.68.90.182
64.68.90.183
64.68.90.184
64.68.90.185
64.68.90.186
64.68.90.187
64.68.90.188
64.68.90.189
64.68.90.19
64.68.90.190
64.68.90.191
64.68.90.192
64.68.90.193
64.68.90.194
64.68.90.195
64.68.90.196
64.68.90.197
64.68.90.198
64.68.90.199
64.68.90.2
64.68.90.20
64.68.90.200
64.68.90.201
64.68.90.202
64.68.90.203
64.68.90.204
64.68.90.205
64.68.90.206
64.68.90.207
64.68.90.208
64.68.90.21
64.68.90.22
64.68.90.23
64.68.90.24
64.68.90.25
64.68.90.26
64.68.90.27
64.68.90.28
64.68.90.29
64.68.90.3
64.68.90.30
64.68.90.31
64.68.90.32
64.68.90.33
64.68.90.34
64.68.90.35
64.68.90.36
64.68.90.37
64.68.90.38
64.68.90.39
64.68.90.4
64.68.90.40
64.68.90.41
64.68.90.42
64.68.90.43
64.68.90.44
64.68.90.45
64.68.90.46
64.68.90.47
64.68.90.48
64.68.90.49
64.68.90.5
64.68.90.50
64.68.90.51
64.68.90.52
64.68.90.53
64.68.90.54
64.68.90.55
64.68.90.56
64.68.90.57
64.68.90.58
64.68.90.59
64.68.90.6
64.68.90.60
64.68.90.61
64.68.90.62
64.68.90.63
64.68.90.64
64.68.90.65
64.68.90.66
64.68.90.67
64.68.90.68
64.68.90.69
64.68.90.7
64.68.90.70
64.68.90.71
64.68.90.72
64.68.90.73
64.68.90.74
64.68.90.75
64.68.90.76
64.68.90.77
64.68.90.78
64.68.90.79
64.68.90.8
64.68.90.80
64.68.90.9
64.68.91
64.68.92
66.249.64
66.249.65
66.249.66
66.249.67
66.249.68
66.249.69
66.249.70
66.249.71
66.249.72
66.249.73
66.249.78
66.249.79
72.14.199
8.6.48

Så der skal lidt mere til. Black hat seo er ikke så skide let længere.

Jeg modtager selv mine ip lister fra nogle gutter på webmasterworld.com, men kravet er at man selv tilføjer ip adresser når google indexerer.

Skal det laves let, så kig efter index.Of "google" i UA.toLower. Husk lige nederst på siden at skrive det er til google og hvis man ser denne besked betyder det der ... ingen videoer kommer frem.

/JJ



Indlæg senest redigeret d. 15.11.2007 13:41 af Bruger #5789
GoogleBotten bruger "Googlebot" som dens identifikation i User-Agent headeren.



Hejsa

Jeg ved man ved hjælp af kode kan identificere søgerobotter og derved kan bruge PHP kode til at få bestemte dele af en side til at opføre sig anderledes end hvis det er en bruger der kommer ind på siden.

FX. Så skal en counter på siden tælle brugeren, når han/hun kommer ind på siden og derved give et hit på tælleren. Skulle Googlebot derimod kigge en tur forbi siden for at søge og eventuelt opdatere indholdet på siden, så skal den ikke tælles med som et nyt hit.

Er der nogen der har nogen links eller forslag til hvor eller hvordan man kan løse dette problem.

Jeg kunne forestille mig det kunne gøres ved hjælp af en IF sætning, hvor nogle kriterier skal være opfyldt for at give et hit på tælleren.

Jeg skal bruge det til at begrænse mit forbrug for serveren i forbindelse med videoklip. Lige nu kigger de forskellige søgerobotter forbi med jævne mellemrum for at se om der er sket noget nyt på en side der hedder video.php og genererer derfor også en del trafik, da videofilerne bliver afspillet hver gang en søgerobot kommer forbi.

Grunden til at jeg vil bruge PHP til at exclude søgerobotterne er, at jeg gerne vil have indexeret sidderne men gerne vil have mulighed for at vise robotten en side, hvor der ikke bliver afspillet et videoklip i mediaplayeren, hver gang de kigger forbi.

Derfor mener jeg heller ikke jeg kan bruge robot.txt på lige denne side, da den vil gøre at jeg enten kan disallow eller allow robotter på siden video.php.

Håber der er et par flinke udviklere der kan hjælpe mig lidt på vej med noget kode til mit problem.

Mvh

Sol


Jeg har selv surfet lidt og fundet noget kode, jeg tænkte måske kunne skrives om og bruges til min side eller er det helt hen i vejret?

Fold kodeboks ind/udKode 


Vil man kunne bruge noget lignende...? Jeg skal jo bare sørge for at google og andre søgemaskiner ikke får vist videomaterialet. Resten af siden skal den jo kunne se og den skal også helst kunne finde navnet på den bare ikke afspille.

Mvh

Sol



Google viser aldrig video'en, google er som sådan lige glad, da googlebot kun kigger i kilden, den rendere som sådan ikke din side



Google viser aldrig video'en, google er som sådan lige glad, da googlebot kun kigger i kilden, den rendere som sådan ikke din side


Hvad hvis det er bots, som skal finde en side til at skrive i? Jeg har en tagwall også, som er blevet ramt af bots, som skriver alt muligt html kode?

Ville Captcha være en løsning mod dette problem og at brugeren selv skal trykke play på filen, for at få den til at spille..?

Mvh

Sol



Ja, billede validering ville nok kunne tage en del af alt det spam du får ind på din gæstebog eller hvad du nu har.. det kan du evt. overbygge med at der ikke bliver postet nogen kommentare før du har godkendt dem...





Tak for hjælpen til Steffen og Jokke, tror jeg har fundet ud af det..

Mvh

Sol



t