网吧网络故障排除实例分享

Keep Open and Learning
Post Reply
国产太子
Posts: 51
Joined: 14 May 2009 07:47

网吧网络故障排除实例分享

Post by 国产太子 » 30 May 2009 04:07

首先给大家写5个故障实例,我认为是网吧里常见的,也是我平时受理故障比较多的几种。
1、网吧内出现频繁断网的情况。(网吧机器60台,100M星型局域网结构,10M电信和8M网通光纤,飞鱼星4500路由器)
故障现象


接到这个电话的时候时间是凌晨3点,当时网吧内只有10多个人,打车到达现场后询问了网吧业主故障发生前的一些情况,业主反应半夜闲来无事,看见交换机灰尘太多,于是分片进行了除尘,全部干完以后玩了十几分钟后就发生这样的情况了,每次掉线以后重新启动所有设备只能维持一小会,然后就是断网,找了半天原因也没找到,于是打电话报修。
处理过程


首先观察交换机,发现网吧内所有的交换机网络指示灯都在以相同的频率在闪,断开局域网,使用笔记本直接接在路由器上进行上网测试,一切正常,故障显然出在局域网内,把所有交换机之间的级联线断开,先插上主交换机,无异常,再一台一台的接入分交换机,接到第三台的时候故障出现了,到那个交换机上查网线,为了快速排除故障,那台交换机上的所有网线都被我拔了下来,然后一个一个插回去,最后发现其中一根网线是级联线,被人插在了同一个交换机上造成数据回路,拔掉这根网线后网络恢复正常。
故障总结


故障处理完之后我问业主为什么这么插,业主说当时也没注意,看见有水晶头的网线就往交换机上插,不知道这根网线是干啥的,唉,我只能一笑了之,告诉业主以后再动网线的时候最好有个技术在场的情况下再动。

2、网吧网络速度慢。(网吧机器120台(单核),100M星型局域网结构,10M电信和8M网通光纤,飞鱼星4500路由器)
故障现象:
下午正在办公室里查资料,接到这个网吧业主的电话反应说网吧内玩游戏暴卡,ping自己局域网的网关竟然出现-2ms,重新启动网吧内所有网络设备只能坚持2分钟,然后还是卡,不知道这是怎么回事,请我过去协助处理。
处理过程:
到达现场以后,网吧内因为网络卡的原因在爆满的情况下已经空出了一半的座位,路过收银台的时候,那里已经被要求退款的顾客包围了,让业主带我去机房,并通知网吧内所有顾客暂时停止上网5分钟,这5分钟的时间用来测试网络。首先断开局域网,笔记本直接接在路由器上进行网关的测试,均<1ms,说明路由器工作正常,恢复局域网的连接后不一会就出现了业主反应的-1ms甚至是-1500ms的情况,并且丢包严重,这个时候已经无法打开路由器的管理界面了,再次断开局域网,登陆路由器,在路由器上设定lan3口为镜像端口,用来监视局域网所有的网络访问情况,使用CommView软件作为网络抓包软件进行局域网的流量监控,恢复网络后发现网络内39号机流量很大,几乎占了整个局域网带宽的80%,下去查的时候发现这个顾客在玩单机游戏,让他退出游戏后发现他挂着迅雷在下东西,任务里面40多个任务在同时下载,并且都是4G以上的文件,问他这是在干什么,对方回答说为了给自己迅雷帐户升级,后面的我就不用说了,这个顾客被老板和网管群K之后赶出网吧。我呢也结束了这次故障处理。
故障总结:
这个故障发生在2007年6月,网吧用的全部是AMD的CPU,后期工作中发现双核CPU没打补丁的情况下部分机器也会出现ping值为负数的情况,本例故障属于网络故障,出现负值的原因经过分析应该是一个ping报文发出去以后返回结果时间过长,才导致了负数,延时大到超出范围的时候就会出现负值,所以大家在故障的处理过程中发现这样的故障不要惊慌,细心的话故障很快就会处理完毕。


3、网吧频繁断线(300台机器,全1000M星型局域网结构,双40M电信40M网通光纤接入,华为防火墙,什么型号记不清了)
故障现象:
晚上8点多正在家悠闲的看着电视,电话想起,对发很着急的说网吧一个劲的断线,查不出原因,请我去协助处理故障。
处理过程:
打车到达现场以后,网吧内到处都是喊叫的声音,在网吧工作的朋友不用我多说了,都是喊网管掉线了和叫骂的,进入机房,发现主交换机和光纤收发器指示灯都在以极快的频率闪,说明流量很大,使用笔记本直接接在电信的光纤收发器上进行测试,发现笔记本的CPU占用率一下就到了100%,不用测试了,被攻击了。再接到网通光纤收发器上测试没什么异常,于是暂时只接网通光纤,恢复网络,让那些上网的暂时安静一会,然后联系电信中心机房更换IP地址,故障就这么搞定了,前后不到20分钟。
故障总结:
跟业主说被攻击了以后业主不相信攻击会造成这么大的影响,并说我花了好几万购买的防火墙呢,怎么可能被攻击搞的这么惨,我说你的出口带宽是40M,对方如果使用大于40M的流量攻击你,防火墙就什么用都没有了,所以网吧里你买防火墙一点用都没有。业主听了我的话没再说什么,过了1个多月我再次去帮助他们处理故障的时候发现那台防火墙已经消失了,取而代之的是2台用配置很高的机器做的软路由。

4、网吧网络速度不稳定(160台机器,1000M星型局域网结构,20M电信光纤,12M网通光纤,锐捷NBR1100路由器)
故障现象:
下午2点多,接到这家网吧的电话,反应玩游戏的时候经常断线,可以再次重新登陆,但过会还会断线。
处理过程:
到达网吧以后现象正如业主反应的,顾客在进入游戏以后玩了一会就显示已经与服务器失去连接,ping电信的DNS发现延时一会20多ms,一会300多ms,在CMD下使用tracert命令探测路由路径,发现延时在20多ms的时候走的是电信线路,延时在300多ms的时候走的是网通线路,问题出在路由器上,向业主要来管理密码,进入路由器的web界面进行检查,发现设置没什么问题,在CMD下使用telnet进入路由器,在超级权限下打入setup重新设置路由,保存后观察路由近2个小时,没有再发生这样的情况,故障处理完毕。
故障总结:
锐捷的路由器在后来的工作中我发现第一次安装的时候最好使用telnet登陆路由器进行配置,配置完以后再进入web管理界面进行双线的设置,我想应该是厂家的问题,并且这个问题一直存在。

5、网络速度慢(40台机器,电信4M单线,树型拓扑结构)
故障现象:
网吧内一部分机器速度正常,一部分机器速度很慢。
处理过程:
到网吧以后仔细观察发现网吧居然使用树型拓扑结构,说白了就是一台一台交换机串接下去的,中间居然还有一个10M的HUB,问题就出在这个HUB上了,16口的,下边还串接了一台24口的交换机,告诉业主这样接一定会影响网络速度,建议使用星型网络拓扑结构,但业主告诉我说过去这么接没发现过问题,近期才发现的,我把24口交换机跟16口HUB互相调换了一下位置,又一部分机器速度恢复了一些,断开HUB以后网络速度近一步恢复,证实了我的判断,再次跟业主沟通告诉他我的想法,对发对我大发雷霆,说你自己看看我网吧还剩几个人了,你TM折腾啥,我无语走人回单位,这家网吧大概坚持了1个多月就停业了,原因是效益不行。

以上就是部分故障处理的过程,也许对一些人会有一些帮助,下面我来说说发生网络故障以后的排查顺序,按照顺序进行的话基本上可以做到快速的判定故障范围和故障点。


1、 掉线故障:
发生掉线故障是网吧网络维护人员最头疼的问题,其实没什么,首先就是冷静,忽视顾客的叫喊,静心观察网络设备的运行情况,例如网络指示灯的闪动频率,频率越高说明流量越大,反之就是没有流量或者流量很小,断网以后要从接入端开始查,例如光纤就从光纤收发器开始查,找台电脑直接接在光纤收发器上,在机器上配置好公网IP进行上网测试,如果正常说明ISP线路正常,问题出在网吧内,不正常就直接报修。


2、 频繁断线故障:
频繁断线故障比掉线故障更难查,因为频繁掉线的原因很多,ISP问题和内网问题都有可能引起这样的故障,这个时候还是需要首先从接入端开始查起,用一台电脑单接光纤收发器进行测试,如果一段时间内没有问题说明ISP的线路工作正常,如果接单机都出现这样的情况就需要报修了,现在全国运营商中使用最多的设备就是烽火的,带有K开头型号光纤收发器上都有一个白色的按钮,就是这个按钮害了我很多次,原因是这个按钮开关内部氧化接触不良,造成一些网吧的频繁断线事故不断,经常是大半夜的折腾我,后来这个情况反馈给厂家后厂家为我们维修并更换了这批设备,但现在仍然有很多ISP的机房内在使用,所以大家可以留意一下。
还有一种情况就是内网问题,这个时候首先找一台没有病毒的机器直接接在路由器上进行单机测试,如果正常就需要查内网交换机是否有问题,网线接触是否良好,水晶有是否有氧化迹象,内网机器是否有病毒,按照这个顺序查的话很快就会有结果。有条件的话可以采用替换法进行故障排除。


3、 网络速度慢
网络速度慢的原因也有很多,经常碰到业主叽叽歪歪的给我打电话问网吧为什么速度这么慢,更有甚者直接破口大骂,碰到这样的情况首先我表示同情和理解,到网吧接单机进行测试,例如网吧实开带宽是4M,那么在我们公司主页上的测试下载速度就应该在400KB左右,达不到这个速度联系机房处理,达到了就继续查网吧内带宽占用情况,一般这种情况都发生在小网吧内,带宽申请的低,然后还非得一票人在线看电影,或者有几个开下载的,不卡就真的奇怪了。当然个别的时候也是由ISP的骨干线路故障原因造成,这个时候我们能做的就是等待了,没有更好的解决办法了。

Post Reply