「會修的人不在場、在場的人不會修」!Facebook大當機的窘境有哪些反思?
「會修的人不在場、在場的人不會修」!Facebook大當機的窘境有哪些反思?

微博當機了、知乎當機了、小紅書當機了,我們都經歷過。你能想像「微信當機」是什麼場景嗎?

2021年1月18日下午,曾有諸多網友反映微信群聊、私信等收不到消息。「微信bug」一度衝上熱搜。騰訊微信團隊回應:「由於系統抖動原因,今天14點左右,部分微信用戶遇到了消息收取延遲情況,現在已經修復完成。」

這次「系統抖動」影響的人數確實相對較少,而歷史上,微信也只有朋友圈、紅包等部分功能偶爾出現當機的情況,相對來說算是「穩如泰山」。

掌握最新AI、半導體、數位趨勢!訂閱《數位時代》日報及社群活動訊息

但是,在剛剛過去的10月4日,除中國大陸以外的全球網友是切切實實體會到了一次什麼叫他們的「微信」崩了。有著35億活躍用戶的Facebook全線業務,一度在全球範圍無法訪問長達6小時。

Facebook
10月4日,臉書全球大當機,長達約6小時的時間無法訪問其頁面與其它軟體。
圖/ Solen Feyissa on Unsplash

這些服務包含Facebook及其相關服務Instagram、WhatsApp、Messenger、Oculus 等;以及其企業級產品,甚至Facebook的公司內網。其中,WhatsApp和Facebook Messenger是公司旗下兩款即時通訊產品,分別在全球範圍擁有20億用戶和13億用戶(有重疊),都高於微信(含海外WeChat)的12.4億用戶和QQ的6.06億用戶。

這次史無前例的故障,其起因本身就是Facebook在疫情后不得不開展大量遠程工作,導致檢修員工不在現場,讓事故持續拖延下去。而其結果,是讓全球不計其數的中小企業乃至政府部門的遠程工作受到嚴重影響,造成一波又一波的次生災害。

世紀新冠疫情讓人們不得不留在家中,依賴互聯網完成大部分工作和人際交往,原本臨時的遠程辦公措施逐漸常態化和永久化,也讓人們憧憬新生活方式的可能。但只需要一次簡單的服務中斷,這一切就都有可能被打回原點。長達6小時的Facebook大當機,正是讓我們重新反思這一切的絕佳時機。

發生了什麼?

根據目前能掌握的資訊,這次Facebook的大規模故障應該是從一次例行維護開始的。

Facebook主管基礎設施的副總裁賈納丹(Santosh Janardhan)說,他們在維護過程中發出的一條命令,無意中關閉了通往世界上所有Facebook數據中心的骨幹網連接。

圍繞此事,主要有兩個不同的陰謀論:一是此事正好趕在有位吹哨人就Facebook及Instagram「無視兒童安全」上美國國會聽證會的前夕,6個小時也許夠用來毀屍滅跡;另一說是有15億份近期的Facebook用戶個人資料流出,有人說黑市每100萬個用戶資料開價5000美元,6 個小時同樣也許可以用來補救或者掩蓋什麼。

目前來看,因為吹哨人而自導自演當機的可能性小到幾乎為0。官方一再解釋,此次當機並不是黑客攻擊導致,也沒有證據顯示有用戶數據是因此事而洩露。

僅供報導用途_shutterstock_181985711_臉書
官方表示,此次當機並不是黑客攻擊導致,也沒有證據顯示有用戶數據是因此事而洩露。
圖/ Frederic Legrand - COMEO via shutterstock

問題在BGP?

不過,「如無必要,勿增實體。」這起事件是一次單純的誤操作所致,也許是一種更簡單也更靠譜的解釋。

除Facebook官方之外,負責第三方公共DNS解析和CDN服務的CloudFlare也在官方博客分析,從外部觀察,就是Facebook的BGP(邊界網關協議)出的問題。通俗的說,DNS是互聯網的地圖,用來告訴你「x在什麼地方」;而BGP是這一地圖的導航部分,告訴你「怎麼去x最快」。

要準確理解這一概念,首先要明白一點:我們現在所稱的互聯網,字面意思是「網際(inter-)網絡(net)」,也就是網絡的網絡,是無數張小網絡如島嶼般彼此連接的後果。這些小網絡可能是中國電信、清華大學或者x公司北京辦事處。

shutterstock_598806239_internet_bank.jpg
現在所稱的互聯網,字面意思是「網際(inter-)網絡(net)」,也就是網絡的網絡,是無數張小網絡如島嶼般彼此連接的後果。
圖/ MK photograp55 via shutterstock

BGP就是要告訴用戶,在地理意義上,你必須經過某些島和橋樑才能到達目的地。一般來說,BGP會智能地選擇多種不同路線中距離最短的那一條,當然最短不意味著最理想,因為有些橋樑比如5G數據連接是收費的。

當Facebook的DNS服務器注意到問題,就自動停止繼續分發BGP路由信息,等待連接恢復正常。因為全球各地設備無休止的發起不成功的訪問請求,會導致對上級DNS服務器更嚴重的衝擊,讓影響擴散得更嚴重。

這樣的事情曾在中國發生過一次。2009年5月19日,兩個盜取遊戲資產的黑客私鬥,導致第三方域名解析服務DNSPOD被攻擊到癱瘓。中國電信停止了對其的網絡服務,致使其無法為域名提供解析服務,諸多采用DNSPOD服務的網站無法訪問。

恰好當時全國裝機量約1.2億台的影音播放器「暴風影音」會定期自動訪問服務器檢查更新,也因為DNSPOD故障而不斷發起域名解析請求,最終幹掉了整個電信運營商的本地域名服務器,引發了全國大斷網。

在本次事件中,Facebook內部的DNS服務器本身仍在工作,但主動選擇停止解析,以保護更大範圍內的網絡。雖然修理它並不是什麼難事,然而一系列連鎖反應使問題進一步惡化。

怎麼會這麼嚴重?

缺乏網絡連接和域名解析丟失,切斷了遠程工作的Facebook工程師和服務器的聯繫,也禁用了許多他們平常使用的檢修工具。一位Facebook內部人士在Reddit爆料,當時的情況是:

  • 會修的人連不上路由器也沒有登錄權限
  • 有權限的人不會修也連不上
  • 唯一在機房能物理接觸到路由設備的員工沒有權限也不會修
  • 由於內部通訊工具也掉線了,這三波人協作困難,雪上加霜。

公司內部的混亂是全方位的。員工之間本來用公司自己的通訊工具溝通,有時即使需要訪問友商業務如Google文檔和Zoom會議軟件,也要求使用Facebook帳號登入。系統崩潰讓這一切都陷入停頓。

有的員工在事發之前已經用公司帳號登錄到Google文檔等環境,受影響尚且較小;有的急忙上線,卻發現自己只能用基於微軟Outlook的電子信箱、蘋果的Facetime等各種各樣的替代服務與同事聯繫。

新浪科技駐矽谷記者鄭峻寫道:「一位FB朋友說,今天大家都很尷尬,不知道發生了什麼,也不知道該做什麼,只好假裝什麼都沒有發生,在給一家不存在的網站工作。」

fix
雖然內部員工即時發現的故障問題,但卻因為各種原因而無法即時搶修。
圖/ Unsplash

修復工作很顯然無法遠程完成,工程師們緊急到加州的主數據中心參與維修。在此期間,一些員工不能使用門禁進入公司大樓和會議室,而這些地方的門只能用門禁卡刷開,沒有鑰匙孔。The Verge甚至曾一度獲得更戲劇性的消息——因為門禁卡失效,工程師只能帶著切割機,強行鋸開數據中心的服務器鐵籠。不過後面這個報導未經證實,被撤回了。

一旦人都被「物理傳送」到了合適的位置上,事情就相對好辦多了,只需要激活安全訪問協議而不是動用電鋸。

只不過,就算已經解決問題,也必須逐漸一點點地開閘放水,否則一次性打開所有通路就如同8個明星並發出軌,會導致更多的系統崩潰。負載必須逐步增加,除美國以外地區的其他用戶要等更久才恢復訪問。

最終,一切又大致恢復了正常,包括Facebook最多曾下跌5%的股價。

都是「遠端」惹的禍?

2020年5月,中國已經大致控制住了第一波疫情,而美國的疫情開始急劇升溫。當時Facebook表示,關閉公共辦公空間,所有有條件的員工都需要在家工作。而這一措施是短期、臨時性的措施,待疫情受控,辦公室重開後,將僅允許某些員工,尤其是最資深、最有經驗的員工長期遠程工作。

時隔一年,Facebook在今年6月9日更新了政策,將長期遠程辦公的許可範圍擴大到任何有能力在家完成工作的員工。

祖克柏寫道:「在過去的一年裡,我們了解到,員工在任何地方都能完成良好的工作。我更樂觀地認為,遠程工作有可能大規模進行,尤其是在遠程視頻和虛擬現實不斷改進的情況下。」

pexels-vlada-karpovich-4050415
Facebook在今年6月9日更新了政策,將長期遠程辦公的許可範圍擴大到任何有能力在家完成工作的員工。
圖/ Pexels

自然,無法遠程完成的工作崗位通常包括那些在硬件設備或數據中心的工作。但從今天這起事件的情況來看,很顯然就連數據中心和網關的崗位,也有一部分已經在遠程了。

扎克伯格還表示,Facebook將開始允許員工跨越國境線進行遠程工作。Facebook將允許美國員工要求在加拿大、英國和歐盟的遠程工作。到2022年1月,公司將允許員工在歐洲七個國家之間永久流動。

據統計,Facebook的勞動力總數約為6萬人,全美絕大部分辦公室在9月初以50%的容量重開,按計劃10月要全面開放。

Facebook並不是唯一一家選擇更深入擁抱遠程辦公的科技巨頭。其理由一方面是疫情的常態化、長期化以及來勢兇猛的變種,另一方面是Facebook的業務範圍本身就包含讓人們遠距離溝通的含義。以Oculus為載體的增強現實和所謂「元宇宙」服務也在其規劃之中,它本身就計劃創造一個跨越物理距離和國家邊界的網絡領地,而自家員工的率先啟用,正好可以做一個內部演練。

VR AR 元宇宙
Facebook本身的服務就包含讓人們遠距離溝通的意義。
圖/ Shutterstock

遠距離辦公,還需要哪些思考?

直到此時,人們主要關注的還是遠距辦公是否會影響效率的問題,以及是否可以全面模擬和替代現場辦公的體驗,及產生所謂化學反應。

扎克伯格說,想要在Facebook辦公室工作的員工,將被要求至少有一半的時間來上班。這是為了確保辦公室保持活力,並確保進入辦公室的員工充分利用空間,成為社區的一部分。此外,他們還計劃為辦公室和遠程人員組織定期的現場聚會,以維護同事關係。

另外值得關注的問題還包括工資。遠程工作很容易導致的結果就是「在老家辦公,拿北京的工資」或者「在泰國工作,拿矽谷的工資」。企業當初為員工製定的薪資一般都結合了當地物價和住房成本(如果租房補貼不另計的話),所以長期遠程意味著需要與員工協商一定程度降薪。但考慮到不同人工作節奏和偏好的不同,從工作效率最大化的角度出發,員工和公司往往也都願意接受改變。

從今天開始,人們將不得不思考在這些問題之外,一個更基本的原則性問題:如果連不上遠程辦公所需的網絡基礎設施該怎麼辦?

這一問題之前只是在Zoom會議期間才被提起,因為各人所處的網絡環境和相隔距離不同,直到疫情爆發一年多後的今天,開一場語音或視頻會議依然可能是一場折磨。一張網圖說,現在上班開會的感覺有點像「招魂」:

不過,我們有微信群和釘釘群們啊。雖然語音影片略顯奢侈,但在群裡各自發語音消息片段,乃至直接打字,早就被我們視作日常操作,不可能出問題的。在這個意義上,微信們也儼然成了跨越物理網絡、跨越國界的電信運營商,是名副其實的基礎設施。

這次,就是這種我們看作完全不可能掉鍊子的服務出了故障。

被刻意忽略的風險

起初的一兩個小時裡,人們還只是在隔壁Twitter上轉發梗圖調侃。越到後來,大家就越有點笑不出來了。

很多人猛然驚醒,發現他們和生命中交往最頻繁的同事、朋友乃至相隔兩地的家人,彼此聯繫方式就只剩下在線這一種,電話號碼也許是幾年前的,說不定換了號碼。如果就此一別,真就不知何時能再相見。

在充滿挑戰的疫情時期,作為國際版微信的WhatsApp,讓世界各國的人們與身邊社群保持聯繫,也因此做出了很多獨特的貢獻,很多重要的活動沒有它都是不可能完成的。WhatsApp官網就列舉了一部分:

  • 印度「契約勞工」制度的倖存者通過WhatsApp群組分享疫情消息,解決同伴受教育程度低、消息閉塞的困難
  • 巴基斯坦一個WhatsApp群組籌集了2100萬盧比,幫助弱勢群體
  • 約旦的就業促進計劃使用WhatsApp幫助女性找工作
  • 敘利亞難民營的教師們在WhatsApp上與家長共享線上課程
  • 一群義大利市民通過WhatsApp相互掌握即時動態,該國那不勒斯小學在停課期間用WhatsApp發送家庭作業
  • 巴黎的醫療人員組成WhatsApp群組,隨時更新當前醫院病床、資源等資訊

對許多人來說,不能訪問Facebook 只是帶來不便。但是對於發展中國家的一些小企業來說,沒有其他可靠方式與客戶溝通,這可能是一個嚴重問題。印度擁有3.4億Facebook用戶,是全球最多,WhatsApp也是該國個人和企業溝通的重要工具。研究公司eMarketer稱,印度有近4.9億WhatsApp活躍用戶。

這兩大平台不僅承擔中國微博和公眾號的角色,可以宣傳商品,更可以如「小程序」般作為網路商店銷售產品。成千上萬的印度企業被迫停業,而相關顧客也沒法網購生活必須品。在巴西,政府官員甚至教育系統都在使用WhatsApp。學生可從WhatsApp接收考試成績。醫院也使用WhatsApp預約掛號和遠程會診。

online shopping
網路或社群平台當機,對某些人來說只是無法進行娛樂體驗,但對某部份人而言,卻嚴重影響工作與日常生活。
圖/ Pexels

長達6小時的服務中斷,讓祖克柏本人的紙面財富縮水了60億美元,但由於WhatsApp、Messenger和Instagram等工具為全球政府、商家、慈善機構、社區和普通人與人之間聯繫帶來的損失,恐怕難以估量。

這次物理層面的當機,鮮明體現了遠程辦公依賴一個脆弱的基礎架構,它因為缺乏備份而顯得脆弱。越多的冗餘備份當然是越安全,但也讓使用者疲勞,因此人們總想拋棄安全保障的枷鎖「裸奔」。

如同Facebook滑稽的公司內網設定一樣,這家科技巨頭同樣為世界各地的人民提供了另一個脆弱的架構,人們在日常生活中對社交媒體工具,尤其是Facebook系產品的依賴已經難以擺脫。

即使如部分美國參議員堅持的那樣,將Facebook 科技巨頭分拆,情況可能也不會有太大改變,因為這只會造成開發產品的公司實體變更,而不會改變人們總喜歡往單一平台聚集的意願。

無論Facebook的故障是由無心失誤、人為操控還是惡意代碼造成的,一個公司的暫時停擺能夠影響全球跨越國界的如此多的互聯網用戶,這令人不安。這向人們展示了,支撐後疫情時代全球化運轉的國際互聯網生態系統是多麼脆弱,而新的風險幾乎近在眼前。

人類歷史上,已經多次有過同類的教訓:

  • 二戰時期納粹德國從侵略小國開始,逐步偷襲蘇聯、鯨吞法國、劍指英吉利
  • 9/11前美國政府已經獲得相關情報
  • 2008金融海嘯前房產泡沫徵兆已經相當明顯

幾個月前開始整頓教育培訓機構時,相關的政策配套也已經公布好幾年了,甚至聚焦到信息安全領域,也同樣如此。今年5月,美國科洛尼爾燃氣管道公司(Colonial Pipeline,又譯殖民管道)遭遇勒索軟件襲擊,一度關閉了橫跨多州的輸油大動脈,在支付約為400萬美元的加密貨幣贖金後得以恢復。

然而常見的惡意軟件、勒索軟件襲擊都是可以通過更新企業電腦的安全軟件,嚴格員工的安保措施,升級到最新版操作系統等基礎方式來預防的。微軟相關人士在解釋為什麼Windows11 強制提高了硬件要求,讓一些3-5年歷史的機器也無法升級時說:「我們從Windows10中學到的是,如果你讓安全設定變得可有可無,人們就不會把它們打開。這是一個很大的教訓。

風險就在那裡,警告從未缺席。但因為有其他迫在眉睫的問題,風險和警告一直被人們刻意忽略,直到最終爆發。

internet-3563638_1920.jpg
我們很容易忘記,網際網路不僅僅是一個概念網絡,乃至無實體的「元宇宙」,它們都建立在物理基礎設施上。
圖/ Pixabay

互聯網是一個脆弱的生態系統,建立在全球海底電纜和分佈式服務器網絡之上。人們很容易忘記,互聯網不僅僅是一個概念網絡,乃至無實體的「元宇宙」,它們都建立在物理基礎設施上,這很重要;由誰控制這些基礎設施,更為重要。

既然人類的抱團社交天性,可能注定了他們難以接受狡兔三窟式不停更換社交媒體服務商,戒斷Facebook、Twitter、YouTube或其它任何集中式的單一服務,成本太高,似乎也沒有必要;那麼,這些巨頭自身和位於其上的監管部門,也就同時被賦予了更大的責任。因為他們的目標已經超越了企業的穩健盈利,而是以此為生的億萬民眾、中小企業的衣食所繫。

社會正更嚴厲地審視巨頭們是否能盡到社會責任,保障基礎設施的平穩運行。如果不能,政策將很快轉向到加速競爭,打破壟斷,提供替代方案,加強監管。這正是現在各國都在做的事情——任何一家互聯網公司都不應該變得「大到不能倒」。

Facebook修好網絡以後沒過幾個小時,其前員工控訴公司「只顧賺錢,不管公共利益」的國會聽證會也順勢開幕了。照例,我們還會聽到自法務副總裁到祖克柏本人的反駁;但其斷網事件本身,比其它任何材料都更雄辯地說明,人們需要對大平台始終保持警惕,並限制它們進一步侵占我們的生活和工作,讓我們在事實上變得失去其它選擇。

也許,每個人面對這種警惕要做的第一件事,是跟自己微信群裡素未謀面的好友和同事們,交換一個其它類型的聯繫方式。

本文經授權轉載自:鈦媒體

【熱門焦點】
1.統一首開300坪大店型!優質生活館與複合店差在哪? 羅智先看準哪塊商機?
2.Windows 11在台灣上市,這些用戶可免費升級!宏碁、華碩都推新品搭換機潮

最新10月號雜誌《無程式碼時代來了!》馬上購:傳送門
「電子雜誌」輕鬆讀:傳送門

責任編輯:吳佩臻、錢玉紘

關鍵字: #Facebook
往下滑看下一篇文章
突破物聯網全球化瓶頸!1NCE創新eSIM解決 MOOVO營運痛點、助力台廠跨海經營
突破物聯網全球化瓶頸!1NCE創新eSIM解決 MOOVO營運痛點、助力台廠跨海經營
2025.03.27 |

物聯網發展迅速,市場研究機構Global Information預測企業物聯網市場將於2030年達到27.6億美元規模。然而,台灣科技業在將創新產品推向國際市場時,常面臨物聯網連接成本高昂、跨國電信認證繁複、服務支援效率低落等障礙,如專注於微交通商用平台的運點科技MOOVO也曾遭遇瓶頸;所幸在透過導入德國物聯網通信服務供應商1NCE的創新eSIM方案後,不只成功節省近25%營運成本,更解決了跨國部署難題。

傳統物聯網連接模式月費成本高、連線中斷難解

MOOVO致力提供外送、企業通勤、共享三種電動自行車的租賃服務,透過物聯網技術整合自行車與軟硬體,已在彰化、雲林及歐美多個城市推動共享電動自行車服務。然而,拓展國際市場時,卻面臨物聯網連接的挑戰。

「MOOVO每輛自行車皆整合物聯網平台進行控制,但是冬天使用率下滑會難以產出利潤,若仍需支付eSIM費用,將會加重營運負擔。」MOOVO技術長張元耀指出,公司過去使用傳統通信商的eSIM方案,「繳月費」的商業模式對自行車共享服務營運商極為不利,如北美廠商普遍收取月費或要求以月為單位購買固定流量,缺乏彈性的收費方式使季節性使用波動明顯的共享單車服務成本難以控制。

同時,網路穩定性也是另一個頭痛的問題。張元耀表示,業界將交通工具整合物聯網時,最擔憂連線中斷;MOOVO應用GPS、藍芽精準定位的電子圍籬技術,讓民眾可在指定區域停放自行車,但停車範圍由網路端設定,臨時更改地點時需依賴網路連線進行車輛和雲端即時溝通;在支付功能上,網路中斷更可能直接導致營收損失。當遇到網路異常時,以往合作廠商的解決方法通常是等待上層夥伴回報,支援被動、耗時許久,甚至曾經斷網長達5天,嚴重影響營運與使用者體驗。

1NCE單一費率全球通用、高效客服解決MOOVO痛點

面對高昂月費與網路不穩的挑戰,MOOVO去年決定使用1NCE為物聯網連線量身打造的eSIM解決方案。1NCE成立於2017年,專注提供低傳輸量的預付型IoT通信服務,以單一價格方案支援全球部署,客戶只需支付每張SIM卡15美元、使用10年的一次性費用,即可在全球173個國家和地區使用免費漫遊服務,包含500MB數據流量與250封簡訊,實現免月租費、免綁約。

messageImage_1742896937414_0.jpg
MOOVO技術長張元耀表示,導入1NCE eSIM後,有效為營運團隊減少約25%的物聯網連線成本。
圖/ 1NCE

這種費率模式讓MOOVO透過計算五年內MB流量、一次性收費的方式,避免未使用流量仍需支付費用的情況。「1NCE至少幫助我們省下近25%成本,這個模式非常便利,光憑這一點就已經改變MOOVO的成本結構,也解決冬天需要抓準時機關閉eSIM的難題,節省為避免卡片失效衍生的程式撰寫與管理成本。」

張元耀也強調,在網路穩定性上,1NCE幾乎都能在一天內解決問題,不只大幅減少成本與商務損失,也同時回報如何避免下一次發生相同事件,有助於實現更緊密的合作關係。

四大優勢助力全球佈局,實現降低成本、強化連線、簡化管理

1NCE為物聯網設備外銷的台灣廠商提供四大核心優勢,有效解決全球部署瓶頸。首先,1NCE與台灣三大電信合作,覆蓋率廣泛、大幅提升連線穩定性,設備更能自動切換到最佳訊號,有效降低網路中斷風險;其次,SIM卡在全球173個國家免認證通用,台灣廠商無需繁瑣的跨國電信認證程序,能大幅縮短產品上市時程。

messageImage_1742896942045_0.jpg
1NCE提供專為低傳輸量IoT設計的eSIM解方,支援全球173國免認證使用,並能自動切換多家電信網路,有效提升產品外銷部署效率與連線穩定性。
圖/ 1NCE

第三,簡化的部署流程提高營運效率,客戶只需線上訂購即可啟用服務,企業也能透過Dashboard掌握每張SIM卡的運作與支出。最後,免月租預付制更有助於降低成本,解決物聯網設備在使用率波動期間的費用困擾,對季節性使用明顯的業者來說尤為重要。值得一提的是,1NCE還免費提供軟體介面,讓物聯網設備管理更加數位化,後勤技術支援更包含繁體中文服務。

隨著物聯網設備與日俱增,1NCE正為台灣科技業提供開拓全球市場的強力後援,助攻台灣物聯網產品加速海外市場布局、提升國際競爭力。

1NCE 的繁體中文官方網站:
https://www.1nce.com/zh-tw/softbank-iot-sim-card

追蹤我們
AI全球100+台灣50
© 2025 Business Next Media Corp. All Rights Reserved. 本網站內容未經允許,不得轉載。
106 台北市大安區光復南路102號9樓