Wednesday, Novembre 11th, 2009
Comment réduire la consommation de bande passante de votre site à la moitié
Un site web est, comme beaucoup de choses dans cette vie, de créer quelque chose de simple, mais difficile à maintenir. Pour éviter les mauvaises surprises et s'assurer que tout se passe relativement bien, il est conseillé d'effectuer un contrôle régulier des paramètres de base, tels que les pages servies, la bande passante consommée, l'activité de "web spiders" (par exemple Google) et ainsi de suite.
Un outil que j'ai trouvé assez fiables pour contrôler certains de ces paramètres est AWStats. Il s'agit d'un script qui analyse les fichiers journaux du serveur de notre site Web, pour générer une série de pages avec des tableaux récapitulatifs et des graphiques d'un grand nombre de paramètres. Vous voyez que, en opération dans cette démo. Pour dorer la lis, vous pouvez également installer Jawstats, un frontend qui recueille les données qu'elle a recueillies et montré dans Awstats un Web beaucoup plus dynamique et agréable. Il ya aussi une démo disponible Jawstats.

Jawstats affiche attrayante d'informations sur notre site
Ce que je vous dis aujourd'hui, c'est comment, à partir des données Awstats, a réussi à réduire la bande passante consommée par le PDA Tungsten dans un stupéfiant 66%. Revoir l'onglet "spiders", a constaté que l'un d'eux a été la consommation des centaines de fois plus de bande passante que les autres, avec une consommation quotidienne de près de 2 Gbits. Cela signifie 60 Go par mois, qui peut ruiner plus d'un webmaster qui a son séjour dans un site d'hébergement que les redevances en fonction de la bande passante consommée.
En outre, l'araignée est répertorié comme «non _user_agent. Awstats Revoir cette fois, j'ai une description un peu plus claire de cette araignée: "Unknown robot (identified by chaîne vide de l'agent utilisateur). Il est clair que l'araignée est d'identifier avec une chaîne vide. Examiner les fichiers journaux sur mon hébergement (plus précisément le access.log Apache), je vois qui correspond à des entrées comme ceci:
XXXX - - [01/Nov/2009:04:53:02 -0800] "GET /wp-content/imagenes/bluetooth-carwhisperer.jpg HTTP/1.0" 200 28567 "-" "-"
Même si une entrée pour une araignée normale elle-même qui identifie l'agent utilisateur:
XXXX - - [01/Nov/2009:01:33:54 -0700] "GET /de/2006/05/13/pagina-interesante-acerca-de-la-palm-tx/ HTTP/1.1" 200 16060 "-"
"Baiduspider+(+http://www.baidu.com/search/spider.htm)"
Recherche sur le net j'ai vu cette araignée "anonyme" créait des problèmes pour les webmasters de nombreux autres, ainsi que, en principe, ne fournissent pas de services, du moins légalement. Alors que j'avais à faire était de rejeter les opinions de ce genre. Car si on utilise Apache comme servdor Web, il n'est pas nécessaire de modifier le fichier. Htaccess dans le dossier racine de notre site, et ajoutez les lignes suivantes:
#Unknown robot (identified by empty user agent string)
RewriteCond %{REQUEST_METHOD} !^HEAD$
RewriteCond %{REQUEST_URI} !^.*robots\.txt$
RewriteCond %{REQUEST_URI} !/favicon\.ico$
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{HTTP_REFERER} ^-?$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^-?$ [NC]
RewriteRule .* - [F]
La ligne "RewriteCond« définir les conditions dans lesquelles la règle s'applique, la ligne "RewriteRule" est en fait refuser l'accès si elles s'appliquent. Les trois premières conditions excluent certaines demandes légitimes, et les quatre dernières sont celles qui identifient celles effectuées avec l'utilisateur de vide-agent ou seulement le caractère trait d'union.
Le résultat, après plusieurs jours de procès, est que cette araignée indésirables ont complètement cessé d'accéder au Web, et la bande passante par jour a chuté de manière spectaculaire, tant dans le Jawstats contrastées que dans les données fournies par mon hébergement.
Donc, si vous rencontrez un usage inhabituel de la bande passante sur votre site, pendant quelques mois, l'examen l'activité des araignées.
Traite dans d'autres équipements ...
Par: Mark Gonzalez Troyes en général
| Flux RSS des commentaires | Trackback |
Imprimer ce post
| Share: |




































Bien qu'en principe semble être une bonne idée de ce que vous faites, c'est vraiment pas très utile dans un certain nombre de cas. C'est parce qu'il ya beaucoup d'outils et de sites Web (mal construit), qui détaille l'agent utilisateur pour accéder à votre site, et donc cette règle bloque complètement. Alors vous voulez vérifier mai OMS / qui êtes-vous que le verrouillage, et le voyant à l'accès à ceux qui pensent que l'exigent. L'autre option est d'identifier la ou les personnes sont les adresses IP à partir duquel vous attaquent le site, et de les bloquer directement ...
En effet, le confinement même comme une première étape de cette méthode est efficace, est maintenant la partie difficile de l'analyse, en essayant de localiser les adresses IP principal de cet abus, pour créer une règle plus précise qui ne donne pas un salaire juste pour les pécheurs.