[導讀]
安捷倫兩把利劍, 別把網(wǎng)絡(luò)工程師帶到故障面前,要把網(wǎng)絡(luò)故障帶到網(wǎng)絡(luò)工程師面前!
首先,你的網(wǎng)絡(luò)維護是否還只是停留在對網(wǎng)線的測試上呢?如果這樣的話,你對你的網(wǎng)絡(luò)健康狀況是否做到心中有數(shù)了?
網(wǎng)絡(luò)管理、維護工具主要可以分為兩大類:網(wǎng)絡(luò)管理系統(tǒng)和網(wǎng)絡(luò)測試儀表。
網(wǎng)絡(luò)管理系統(tǒng)的構(gòu)成包括:網(wǎng)管工作站(運行各種網(wǎng)絡(luò)管理軟件)和分布在不同網(wǎng)絡(luò)設(shè)備中的網(wǎng)管代理(Agent)或硬件探頭(Probe)。Probe是RMON標準中的專業(yè)名詞,它是一種硬件采集設(shè)備,對網(wǎng)絡(luò)流量進行采集、統(tǒng)計,然后通過SNMP將數(shù)據(jù)傳送給網(wǎng)管工作站進行進一步處理、顯示。
網(wǎng)絡(luò)測試儀表按照OSI協(xié)議層來分類,可分為物理層的測試儀表(如電纜測試儀WS PRO、誤碼測試儀、OTDR光時域反射儀等)和協(xié)議分析儀(用于解決2-7層網(wǎng)絡(luò)協(xié)議問題)。而協(xié)議分析儀又可分為基于硬件的協(xié)議分析儀和基于軟件的協(xié)議分析儀。基于硬件的協(xié)議分析儀是指采用專門的硬件設(shè)計(如:專用CPU、FPGA芯片、高速捕捉緩沖區(qū))來完成對網(wǎng)絡(luò)數(shù)據(jù)包的捕捉和實時協(xié)議分析;基于軟件的協(xié)議分析儀一般由普通的PC機、網(wǎng)卡和協(xié)議分析軟件構(gòu)成,它利用PC機的RAM來捕捉數(shù)據(jù)包,用PC機的CPU來進行網(wǎng)絡(luò)協(xié)議分析。
如下圖所示,可以看出不同的工具在OSI網(wǎng)絡(luò)協(xié)議層次管理和維護中的定位和所起的作用。

網(wǎng)絡(luò)管理、維護工具比較
由于目前市場上有眾多的網(wǎng)絡(luò)管理、維護工具,每種工具都有各自的產(chǎn)品定位和側(cè)重點,并且有些工具在功能上也存在一定的重復性,這在一方面給網(wǎng)絡(luò)管理、維護人員提供了更多靈活的選擇空間,在另一方面,也給他們確定何種產(chǎn)品更適合自己的應(yīng)用和需要帶來一定的難度。
|
網(wǎng)絡(luò)管理維護工具 |
功能側(cè)重點 |
優(yōu)點和局限性 |
主要應(yīng)用領(lǐng)域 |
|
網(wǎng)絡(luò)節(jié)點管理系統(tǒng) |
對分布在不同地理位置的網(wǎng)絡(luò)設(shè)備進行集中式的參數(shù)配置管理; 監(jiān)視網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和設(shè)備運行狀態(tài); 對網(wǎng)絡(luò)節(jié)點進行故障和性能管理。 |
優(yōu)點:具有較全面的網(wǎng)絡(luò)節(jié)點和主機系統(tǒng)的管理功能,并具有完善的事件處理和告警功能。 局限性: 缺乏對網(wǎng)絡(luò)流量的分析能力; 會產(chǎn)生一定的網(wǎng)管流量負荷。 |
適合于對中、大型網(wǎng)絡(luò)的集中式網(wǎng)絡(luò)設(shè)備管理和監(jiān)控。 屬于網(wǎng)絡(luò)管理的基本系統(tǒng),一般在網(wǎng)管項目的初期便可實施。 |
|
基于RMON的分布式流量監(jiān)測系統(tǒng) |
進行分布式的長時期數(shù)據(jù)采集和流量監(jiān)測; 對網(wǎng)絡(luò)鏈路進行性能分析、確定網(wǎng)絡(luò)瓶頸; 確定網(wǎng)絡(luò)趨勢,對網(wǎng)絡(luò)容量規(guī)劃提供參考依據(jù)。 |
優(yōu)點:可進行分布式的流量監(jiān)測,分析流量分布和發(fā)展趨勢。 局限性: 會產(chǎn)生較高的網(wǎng)管流量負荷; 缺乏對交換式以太網(wǎng)的全面監(jiān)測手段; 網(wǎng)絡(luò)故障分析功能較弱; 對大型網(wǎng)絡(luò)的監(jiān)測,需要很大的投資。 |
適合于對中、大型網(wǎng)絡(luò)進行集中式網(wǎng)絡(luò)性能監(jiān)測和預防性網(wǎng)絡(luò)維護; 屬于較高級的網(wǎng)絡(luò)管理系統(tǒng),且投資較大,一般在網(wǎng)管項目的高級階段實施。 |
|
基于硬件的協(xié)議分析儀 |
進行實時的協(xié)議過濾、統(tǒng)計和解碼; 100%數(shù)據(jù)捕捉; 實時的專家系統(tǒng)分析(支持OSI 2-7層); 完善的鏈路層故障測試功能和部分物理層測試功能。 |
優(yōu)點: 便攜性好,一臺儀表可以靈活地分時測試不同地理位置的網(wǎng)絡(luò)故障; 能進行準確的網(wǎng)絡(luò)故障檢測和定位; 具有一定的物理層測試功能。 局限性: 同軟件協(xié)議分析儀相比,價格較高; 單臺儀表只能對1-2個網(wǎng)段進行同時測試。 |
適合于對中、大型網(wǎng)絡(luò)進行網(wǎng)絡(luò)安裝和響應(yīng)式的網(wǎng)絡(luò)故障維護; 屬于數(shù)據(jù)通信網(wǎng)絡(luò)安裝、維護的必備工具,尤其當采用了先進的寬帶網(wǎng)絡(luò)技術(shù)(如ATM、幀中繼和快速以太網(wǎng))時,它更為適用。 |
|
基于軟件的協(xié)議分析儀 |
用軟件實現(xiàn)協(xié)議過濾和解碼(一般為后分析方式); 具有一定的統(tǒng)計功能; 后分析方式的專家系統(tǒng)。 |
優(yōu)點: 價格便宜。 局限性:無法100%數(shù)據(jù)捕捉; 非常局限的數(shù)據(jù)鏈路層錯誤事件報告能力。 |
適合于對小型網(wǎng)絡(luò)進行初步性的網(wǎng)絡(luò)協(xié)議故障檢測; 一般只適用于對局域網(wǎng)的維護。 |
|
電纜測試儀,光時域反射計,誤碼測試儀 |
進行線纜、光纖的物理層指標、通斷情況測試; 對廣域網(wǎng)鏈路的質(zhì)量和可靠性進行測試。 |
優(yōu)點:便攜性好,價格較便宜。 局限性:只適合于對物理層的網(wǎng)絡(luò)問題進行診斷和維護。 |
適合于各種網(wǎng)絡(luò)的線路安裝、維護使用。 |
網(wǎng)絡(luò)的故障定位和排除方案
對局域網(wǎng)的維護
局域網(wǎng)是應(yīng)用最普及、使用范圍最廣的數(shù)據(jù)組網(wǎng)方式,這一部分針對運用最廣泛的以太網(wǎng)的維護和故障排除,列出一些常見故障現(xiàn)象和相應(yīng)的處理方法。
局域網(wǎng)中的常見故障
常見碰撞故障
A. 本地碰撞(Local Collsion)
在同軸線的網(wǎng)中(10Base2和10Base5),信號沿電纜傳輸直至碰到來自另一個節(jié)點的信號。這時波形會疊蓋在一起。部分信號會相互抵消(減弱),而部分信號會相互迭加(加強)。而加強的信號部分的電壓值會超過所允許的最高電平。這種過壓的現(xiàn)象會被本網(wǎng)段的所有節(jié)點所觀測到,稱之為局部碰撞。
B. 遠端碰撞
如果碰撞發(fā)生在中繼器的另一端,過壓的現(xiàn)象在中繼器的這一端就不會發(fā)現(xiàn)。在中繼器這一側(cè)所發(fā)現(xiàn)的是不完整的信息幀。這個縮短的信息幀的FCS將會報告有問題并且不會滿足64個字節(jié)的幀最小要求。事實上,通常是幀短的幾乎整個幀首都看不見(含目的和源地址)。而且還會有“阻塞”的字符出現(xiàn)在縮短了的幀的最后4個8位(一組8個二進制位,有時不嚴格的稱為字節(jié))。
這種幀首縮的幀稱為遠端碰撞。其關(guān)鍵的特征是不存在過壓現(xiàn)象,幀的長度小于72個字節(jié)并且FCS是無效的。
因為10BaseT的集線器基本上是一個多口的中繼器而且每個站點就象一個局部網(wǎng)段,所以在10BaseT中的碰撞幾乎全是遠端碰撞。
C. 延遲碰撞
當碰撞發(fā)生在幀的前同步信號和前64個字節(jié)之后,而且是局部碰撞的現(xiàn)象時(有過壓或同時發(fā)送和接收),也就是和局部碰撞一樣只是發(fā)生的較晚一些,這種碰撞稱延遲碰撞。一般它只在同軸線的網(wǎng)絡(luò)(在10BaseT網(wǎng)中,監(jiān)測站必須同時發(fā)送才能看見延遲碰撞)。延遲碰撞的通常原因是網(wǎng)卡故障或網(wǎng)絡(luò)電纜太長。所謂電纜過長的網(wǎng)絡(luò)是指信號從一端傳送另一端的時間超過了最小的合法幀的大小。
D. 延遲的遠端碰撞
發(fā)生在中繼器另外一側(cè)的延遲碰撞就是延遲的遠端碰撞。因為中繼器將阻止過壓傳至另一側(cè),所以只是將本網(wǎng)段的局部碰撞報告給另一側(cè)。延遲的遠端碰撞也可以通過分析出現(xiàn)阻塞信號的破損幀的最后幾個字節(jié)來推斷出來。典型的這種類型的碰撞可以在本網(wǎng)段用檢查壞的FCS來查出。
常見鏈路層錯誤故障
?。?)幀檢測序列-FCS
一個幀中的FCS錯誤也稱為CRC錯誤。一般幀首的信息是正確的(如地址等),但接收站累計出的累加和與幀尾的FCS不相符。單一站的FCS數(shù)目過大常表明網(wǎng)卡有問題或軟件驅(qū)動有問題,如果FCS的錯誤與多個站點相關(guān)則可能是電纜故障,網(wǎng)卡驅(qū)動故障,集線器接口故障或噪聲的影響。
?。?)短幀-Short Frame
一個幀比有效的最短幀(72字節(jié))還小而FCS是正常的則為短幀。某些網(wǎng)絡(luò)協(xié)議分析儀和網(wǎng)絡(luò)監(jiān)測儀稱之為幀不全(Runts),但這不準確。一般來說你看不見短幀。雖然他們的出現(xiàn)不一定會造成網(wǎng)絡(luò)故障。短幀的最可能原因就是網(wǎng)卡故障,設(shè)置錯誤或網(wǎng)卡驅(qū)動文件損壞。
(3)碎片幀-Runts
當發(fā)生碰撞時,設(shè)備會停止發(fā)送沒有發(fā)完的幀,這種不完整的幀叫碎片幀。這可以是任何長度短于法定幀長的幀,它包括了局部,遠端或前端碰撞,也可以是FCS是好的或壞的短幀。
?。?)幀過長-Jabber
幀過長在802.3標準中定義為比標準的最大長度(1518 Bytes)還要長的幀,但沒有說明其FCS是好還是壞。所以一般很難發(fā)現(xiàn)幀過長。造成幀過長的可能原因有壞的網(wǎng)卡,網(wǎng)卡中的驅(qū)動文件損壞,電纜故障或接地問題等。
?。?)長幀-Long Frame
比標準最長(1518 Bytes)還長的幀,但FCS是有效的幀稱為長幀。其可能的原因是軟件設(shè)置有問題或網(wǎng)卡驅(qū)動文件損壞。
(6)定位錯誤-Alignment Error
是指不能被8整除的幀,F(xiàn)CS也是錯誤的。通常是由于軟件驅(qū)動有錯誤或網(wǎng)絡(luò)碰撞造成的。