ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan bağlantıdan mahrum kaldı. Yaklaşık 8 saat süren kesinti sebebi ile şirket 60 milyon dolar ziyan etti. Bu sayı gözünüze büyük görünebilir elbette, lakin okyanusun tabanına kendi internet çizgisini döşeyen, yılda 30 milyar dolara yakın para kazanan bir şirket için devede kulak kalıyor.
Pekala o gece ne oldu, ne oldu da bir anda Facebook internetin altyapısından silindi, nasıl oldu da mühendisleri -adeta bir mağara adamı gibi- kendi şirketlerinin müdafaa kalkanlarını kesmek zorunda kaldı? Bundan 7 ay evvel Uber’den Facebook’a Kıdemli Yazılım Mühendisi olarak transfer olan Eren Algan çöküş gecesi yaşananları Webtekno’ya anlattı.
Facebook, Instagram, WhatsApp ve Oculus neden çöktü? Başlamadan evvel bilmeniz gereken iki kavram var: BGP ve DNS
- BGP (Border Gateway Protocol): Kısaca ‘internetin posta servisi’ diyebiliriz. WhatsApp’tan bir ileti göndermek istediğinizde bu bilgiyi en hızlı/verimli formda karşıdaki şahsa göndermek için çalışır.
- DNS (Domain Name System): Kısaca ‘internetin telefon rehberi’ diyebiliriz. Tarayıcıya “facebook.com” yazdığınızda bu adresin hangi IP’ye (bir nevi kimlik numarasına) sahip olduğunu söyleyen sistemdir.
Eren Algan, “Herhangi bir internet adresine ulaşabilmeniz için bu iki sistem de gereklidir. DNS, size yazdığınız karakterlerin hangi IP’ye ilişkin olduğunu söylerken, sizin bulunduğunuz ağdan gitmek istediğiniz ağa en süratli biçimde nasıl gideceğinizi söyleyen sistem ise BGP’dir.” diyor. Kolay bir örnekle anlatalım: WhatsApp’a girdiniz arama kutusuna bir kişinin ismini yazdınız; sonuçlar karşınıza geldi ve kişi ismi telefon numarası/profili ile eşleşti (DNS). Kişiyi aradınız, komut bilgisi evvel size en yakın baz istasyonuna, akabinde en yakın uydu ve karşıdaki şahsa en yakın baz istasyonuna son olarak telefonuna ulaştı (BGP).
Sonun başlangıcı: Yalnızca bir mühendis ve bir yanlışlı komut!
Şirketi Facebook hakkında “Kendi bilgi süreç merkezleri (data center’ları) olan, devasa bir ağ yapısına sahip bir kurum” diyen Eren Algan “Hatta ve hatta Pasifik Okyanusu’nun altindan kendi fiber optik kablolarini geçiren muazzam boyutta bir şirketten kelam ediyoruz. Bütün bu kablolu ağlar ise Facebook’un ‘backbone network’ ismini verdiği bir kablolama sistemi üzerinden geçiyor.” diyor.
Yani çoğunlukla kablosuz olarak irtibat kurduğumuz Facebook, aslında internetin tabiatı gereği tüm sistemlerini kablolara borçlu. Dolayısı ile şirket, bu kablolu altyapıya tertipli olarak bakım yapması gerekiyor, yalnızca bu işle ilgilenen mühendislik takımları sistemli olarak testler gerçekleştiriyor.
“4 Ekim’de rutin bir ‘backbone’ bakım süreci sırasında bir mühendis, bu ağın ne kadar kapasitesinin olduğunu anlamak için bir komut çalıştırdı. Sonun başlangıcı olan bu komut, istenmeyen bir biçimde ‘backbone’ ağının bütün irtibatlarını alaşağı etti; Facebook’u bütün bilgi süreç merkezlerini çevrimdışı hale getirdi.”
Talihsizlikler serüveni devam ediyor: Eren, Facebook’un internetten -gerçek anlamda- yok olduğu o anı şöyle anlattı
Facebook sistemlerinin olağanda bu usul yanılgıları engellemek üzerine şurası olduğunu söyleyen Eren Algan; “Ancak talihsizlik olacak ki bu yanılgıları anlamak için geliştirilen yazılımda da bir kusur meydana geldi, bu nedenle mühendisin girdiği yanılgılı komut durdurulamadı. Sonucunda Facebook’un bilgi süreç merkezleri ile internet ortasındaki bağ koptu.” diyor:
“Facebook’un DNS sunucuları; şayet kendi bilgi süreç merkezlerine ulaşamazsa, kendilerini ‘ulaşılamaz/hatalı’ olarak işaretliyor, durumu posta servisine (BGP’ye) bildiriyor. Çöküş gecesi ise DNS sunucuları ‘Biz meskende yokuz, hatta mesken bile yok’ manasına gelen kusur verdi.”
Facebook’un bir anda çağlar öncesine dönüşü: Spiral testereyle sunucu kapılarını kesip, bir hırsız üzere kendi şirketine girmek…
Facebook ve bağlı tüm uygulamalarında bir sorun olduğunu anlayan çabucak mühendislerin işe koyulduğunu söyleyen Eren Algan “Hiç de güzel olmayan öbür bir sürprizle karşılaştılar. Bütün bilgi süreç merkezleri çevrimdışı olduğu için hiç kimsenin internet üzerinden müdahale etme ihtimali yoktu.” diyor. Yani dünyanın en büyük internet şirketlerinden Facebook’un çalışanları, yeryüzünde internet varken “internetsiz” kalıyor.
“Tek yapılabilecek şey, fiziki olarak bilgi süreç merkezlerine gidip, DNS sunucularını ayağa kaldırmak olacaktı. Alışılmış ki de bu o kadar kolay değildi. Facebook, hacker’lar bilgi süreç merkezlerine girmesinler diye ekstra güvenlik tedbirleri almıştı. Mühendisler bu bilgisayarlara ulaşmak için spiral testere makinesi alip adeta bir hırsız üzere kendi şirketlerinin fiziki güvenlik manilerini kesmek zorunda kaldılar.”
Her şey olağana dönse de problemler bitmedi:
Mühendislerin kendi şirketlerine hırsız üzere girip kusurlu komutu düzelttikten sonra sistemi ayağa kaldırdıklarını söyleyen Eren Algan “Tabii ki problemler bununla bitmedi. Bütün sistemleri bir anda açmak, bu boyuttaki şirketler için hiçbir vakit hakikat tahlil olamaz. Sistemler ayağa kaldırıldığında bilgisayarlarda çok fazla yük olacağı için, bu sistemlerin aşikâr siralarla ve aşikâr kapasitelerle ayağa kaldırılması gerekir.” diyor ve WhatsApp’ın neden yalnızca bir adet ampul üzere açma-kapama anahtarına sahip olmadığını anlıyoruz.
“Facebook, bu üzere muhtemel sorunları evvelden öngördüğü için ‘storm drills’ denilen ve muhtemel bir felaket durumunda sistemlerin nasıl davranacağını test ettikleri bir protokole sahiptir. Bu durumda da sistemler muhakkak bir sırayla ve kapasiteyle ayağa kaldırmayı başardılar. Yaklaşık 5 saati geçen hummali çalışmanın sonunda Facebook, Instagram, WhatsApp, Oculus uygulamalarına erişim sağlandı :)”
“Ben 4 Ekim’de ofise gittiğimde içeride kullanılan ağa ulaşım sağlanamıyordu. Hatta ve hatta yazıcılar bile çalışmıyordu. İçerideki haberleşme sistemleri çalışmayınca, olaylardan haberimizin olması bile çok sonradan oldu.”
Artık herkesin aklındaki soruyu cevaplamaya geldi sıra… O yanlışlı komutu yazan, Facebook’a 67 milyon dolar kaybettiren o mühendise n’oldu?
“Hiç bir şey olmadı, olmaz da. Facebook üzere şirketler bu türlü yanılgılara öğrenme fırsatı olarak bakarlar ve sistemlerini geliştirmek için post-mortem (otopsi) yaparlar. Genelde bu türlü yanılgılar yüzünden beşerler kovulmazlar. O beşerler için mesleklerinde unutulmaz bir kıssa, Facebook için ise çok değerliye mal olmuş bir yanılgı olur.”
İçeriğe verdiği takviye için Eren Algan’a teşekkür ederiz, kendisinin LinkedIn hesabına buradan, Instagram hesabına da buradan ulaşabilirsiniz.
Facebook’un çöküş gecesinde yaşananları aşağıdaki videomuzdan da öğrenebilirsiniz:
O gece yaşananlara ait başka haberlerimiz: