|
见鬼的sosospider,soso蜘蛛导致服务器瘫痪的解决方法
2008-07-03 00:50
最近这段时间以来服务器都感觉有点异常,反应很慢,
开始还以为是流量增长所导致的,可越查越不像,后来看了几天日志后才发现sosospider的反常行为。
从日志上看类如这样的路径一天竟然高达十几万次,真是有点吓人了
124.115.4.190 - - [18/Jul/2008:21:48:58 +0900] “GET xxx 403 185 xxx “Sosospider+(+http://help.soso.com/webspider.htm)”
后来搜索了一下才发觉得原来是soso早已是成为被人发觉的恶虫了,据说是为了早日摆脱google而大量的抓取资料,可是你这样抓也要考虑人家是否受得了呀,搞得人家都当机了你抓了有个P用啊...
到soso的网站看了一下,看到下述的回答:
<<<<
4.sosospider访问给我的网站造成很大负载怎么办?
sosospider的正常访问并不会对您的网站造成很大负载。如果您发现有名为Sosospider的agent抓取影响了您正常的服务,请尽快和我们联系。您可以将信息反馈至sosospider@tencent.com,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。
5.我可以拒绝sosospider访问我的站点么?
sosospider遵循robots协议。该协议的详细信息可以参考http://www.robotstxt.org/wc/robots.html(英文网站)。注意:禁止sosospider访问您的网站,将使您的网站在搜搜网页搜索引擎中无法被用户搜索到,请慎重使用。
>>>>
可事实上:
在发现这个事情后我就立即给soso发邮件告知此事,但二天后还是没有回音。
至于robots协议更是一个纯粹的谎言。在做了robots禁止后该蜘蛛还是频频抓取文件,却从来没访问过robots文件,这证明它根本就没鸟过robots协议,
本人非常支持国内搜索,但SOSO的蜘蛛却如此恶劣,实在没办法只好把它当流氓蜘蛛对待了。
最终解决办法:
一,有防火墙的在访问规则中设置“124.115.”的IP全部过滤了;
二,用IIS的在目录安全里设置“一组计算机”的过滤124.115.0.0,子网掩码为正常的255.255.255.0
然后就一天光明了,服务器也恢复了原速度了,只是觉得很可惜,毕竟是国人的蜘蛛呀,希望soso能就此事给网友一个交待并尽量改进收集方式。
|
|
|