新聞中心
鷹眼 “四步走”分析法,讓你分鐘級快速定位故障根因
隨著企業(yè)數(shù)字化轉型的深入,網(wǎng)絡安全已成為各個企業(yè)不容忽視的重要議題。但在這個數(shù)據(jù)驅動的時代,如何快速、準確地定位并解決網(wǎng)絡問題,成為了運維人員面臨的一大挑戰(zhàn)。
這不,運維人員小張今天就遇到了這個難題:
但到底該從哪里入手排查呢?小張緊張得四處咨詢:
“鷹眼”故障排查“四步走”
“鷹眼”全流量取證系統(tǒng),以指標趨勢可視作為入口,進行異常線索的排查。將負載、質量、TCP指標、建連分析等指標進行統(tǒng)計排名,定位異常目標。深度挖掘異常目標的故障會話,在線分析找到故障根因。最后通過數(shù)據(jù)包取證,提交數(shù)字證據(jù)。通過以上故障排查思路,可助客戶化繁為簡,分鐘級快速定位問題。
第一步:看指標
當發(fā)生網(wǎng)絡訪問卡頓問題時,常見原因可能包括:負載過高導致超過分配帶寬閾值,存在SYN攻擊導致新建超過系統(tǒng)規(guī)格,服務器資源被占滿或者應用忙等。這些原因均會從指標上體現(xiàn)出異常趨勢,例如當負載超過帶寬閾值時,帶寬利用率指標會突增;當存在SYN攻擊時,新建會話數(shù)指標會驟增;當服務器資源被占滿時,對應的TCP零窗口數(shù)量指標會增加;應用忙,可能服務器URL響應時間較長,對應服務器響應時間指標會變大。
鷹眼將網(wǎng)絡流量數(shù)據(jù)分為負載、質量、TCP與建連指標四類,幫助定位異常情況。
負載指標包括流速、新建會話、帶寬利用率等,是網(wǎng)絡運維場景下通常關注的流量信息,具備監(jiān)控統(tǒng)計的必要性。同時負載信息也是流量出現(xiàn)問題時的基本定位方向。
質量指標包括網(wǎng)絡時延、丟包率、響應時間、重傳率等。質量指標分析會聚焦具有網(wǎng)絡問題或應用問題指向性的數(shù)據(jù),引導客戶發(fā)現(xiàn)異常,減少思考成本。
TCP指標包括SYN、SYN ACK包數(shù)量、零窗口數(shù)量以及TCP重置數(shù)量等,是網(wǎng)絡質量的代表性指標,其嚴重狀態(tài)能反映當前網(wǎng)絡的擁塞情況。
建連指標包括建連失敗率、建連失敗次數(shù)、建立連接時間、TCP無異常三次握手次數(shù)等。會話的建立連接分析可用來刻畫網(wǎng)絡的可用性程度。
鷹眼通過指標趨勢可視的方式,將負載指標、質量指標、TCP指標、建連指標一一梳理,通過趨勢圖即可簡單快速地發(fā)現(xiàn)異常。如在故障時段,負載指標中的帶寬利用率和流速出現(xiàn)了突增。為什么會帶寬和流速突增?帶著這個疑問,我們進一步排查。
第二步:統(tǒng)計排名
在發(fā)現(xiàn)指標異常后,可針對指標進行統(tǒng)計排名與流量分析,定位異常源頭。
鷹眼支持從IP、協(xié)議、應用、會話等多個視角進行自動流量排名分析。根據(jù)趨勢圖異常點,將流量分析聚焦至異常時段的前后1小時,縮短排查范圍,網(wǎng)絡應用維度流量自動統(tǒng)計排序,會發(fā)現(xiàn)NETBIOS會話服務總流量最大,并且與同時段的其他應用存在量級化差距。
那么NETBIOS會話服務下是誰訪問得最多呢?帶著這個疑問繼續(xù)挖掘下鉆,在流量分析頁面雙擊NETBIOS會話服務,展開后即從網(wǎng)絡應用下鉆查看具體源IP與目的IP。
通過下鉆,定位到源IP 10.223.x.12訪問流量最高,繼續(xù)雙擊下鉆,定位至源IP為10.223.x.12與目的IP為10.223.x.16的會話通信流量最高,同時明顯發(fā)現(xiàn)該會話流量與其他會話存在量級式差距。因此,這個會話大概率是故障源頭,其詳細信息需要繼續(xù)挖掘探索。
第三步:會話分析
順著會話,我們繼續(xù)查看原始數(shù)據(jù)報文,深挖可疑會話,進一步確定問題原因。
鷹眼支持基于IP會話、TCP會話與UDP會話維度進行深度分析,在會話分析維度支持近百種全網(wǎng)絡指標統(tǒng)計分析,一鍵點擊可自動排序。
通過會話排查發(fā)現(xiàn),問題會話的流量較大且上行流量高,有可能存在敏感數(shù)據(jù)上傳或寫入等異常行為。通過鷹眼內置在線分析工具對會話深度分析,將報文快速解碼分析,完成會話排查。
通過在線分析,發(fā)現(xiàn)了疑似通過SMB協(xié)議進行數(shù)據(jù)寫入的行為:
接下來,需要原始數(shù)據(jù)報文提供排查的數(shù)據(jù)支撐,至此故障排查與取證完成閉環(huán)。
第四步:數(shù)據(jù)包取證
最后一步是通過數(shù)據(jù)包取證驗證分析結論。
鷹眼支持基于會話、時段、協(xié)議、應用等條件按需下載報文,通過原始報文驗證分析結論的準確性。
通過第三方報文分析工具查看發(fā)現(xiàn),在網(wǎng)絡卡頓故障時段存在大量文件寫入的行為,大幅占用帶寬,導致帶寬不夠用,影響業(yè)務訪問。
排查結論
小張將“疑似10.223.x.12在工作時間進行大文件寫入行為,大幅占用帶寬導致業(yè)務訪問卡頓”的結論同步至相關業(yè)務部門。經(jīng)業(yè)務部門確認,確有同事在工作時間段將文件寫入外掛存儲服務器的行為,于是進行了相應的業(yè)務操作規(guī)范整改。整改后,業(yè)務恢復,不再卡頓。
在這個安全事件頻發(fā)的時代,鷹眼的“四步走”智能分析能力,為您帶來快速定位和分析根因的底氣和安全感。當流量出現(xiàn)異常、安全事件頻發(fā)時,只需“四步”即可迅速定位問題源頭。無論是技術大咖還是技術小白,都能輕松上手分析,面對故障排查不再毫無頭緒,保障業(yè)務穩(wěn)定運行,讓企業(yè)實現(xiàn)安全業(yè)務“兜底”。
此外,“鷹眼”全流量取證系統(tǒng)還可以提供網(wǎng)絡流量梳理、關鍵數(shù)據(jù)回溯和業(yè)務性能監(jiān)測能力。通過高性能數(shù)據(jù)包采集、一體化應用和安全引擎、領先的報文存儲和分析算法,采用可溯、可視、可知的理念,構建流量全景可視化,為 IT 信息化建設和數(shù)據(jù)安全服務提供數(shù)據(jù)支撐和決策支持。
作為網(wǎng)安上游龍頭企業(yè),安博通持續(xù)專注網(wǎng)絡安全可視化領域,致力將安全能力與客戶的業(yè)務場景相融合,助力千行百業(yè)共贏數(shù)字未來。