Büyük veri‘de bundan sonra…
*Mustafa C. Bulan
“Eğer “büyük veri”yi her 10-15 yılda bir yedekleyip saklamak ve kaynakları bu sayede yeniden kullanmaya çalışmak gibi bir planınız varsa, limitlerle yüzleşmeye hazır olun…”
Depolama kaynaklarının bir noktada birleştirilmesi ve internet üzerinden 365 gün 24 saat ulaşılabilir olması üzerinde ilk kez modellenmeye başlayan bulut bilişim bugün yüzde 95’i atıl halde olan, veri içeren ve birbiri ile bağlantısı olmayan veri kümesi haline geldi. Üstelik atıl hale gelen yüzde 95’lik kısım üzerinde akıllı bir sorgulama yapsanız son derece değerli bilgilere ulaşabilmeniz olası iken.
Bu makalemde yeni bir kavramdan, sentetik bulut mimarisinden, verinin mıknatıs hale getirilmesi ve vektörel olarak saklanması ve akıllı işleyiciler ile hızlı ve verimli işlenmesi üzerine çalışmalardan bahsederken, örnek uygulamalar olarak ise havacılık sektöründe havalimanları ve havayolları tarafından biriktirilen veri üzerinde çalışmalarımız hakkında bilgiler vermeye çalışacağım.
Yeni bir kavram : Sentetik Bulut Mimarisi (veya Modeli)
Zaman zaman “yapay” anlamında da kullanılabilen “sentetik” kelimesini seçmemin sebebi merkezi bir bilgi depolama makine çiftliği yerine rastgele dağıtık halde bulunan, mobilize ve belirli bir anda oluşup daha sonra kendiliğinden yok olan (ad-hoc) veri kaynaklarını tarif etmek içindir.
Bu sayede tüm ağ üzerinde biriktirilen datalardan belirli frekansta (sivrilikte de diyebiliriz) olanları zamanla merkezlere doğru kaymaya başlamasını sağlayabiliyoruz. Bu ise biriken veriyi sürekli normalize edebilecek ve düşük frekanstaki veriler eriyerek yok olmasını sağlayacaktır. Doğrusu bu süreç devam ederken elbette büyük veri büyümeye devam edecek ancak bu artış çok daha düşük seviyede gerçekleşecektir.
Veri kalıtımı ve dondurma işlemi
Burada önerdiğim modele göre 50 yıl sonraki verilerin DNA kodundan bugünkü verilere ulaşmak mümkün olabilecektir. Veri depolayıcıların deyim yerinde ise giriş kapılarında akıllı algoritmalar ile filtrelenen ve değerlendirilen verimiz, buna göre evrim geçirerek depolanacaktır. Depolanan verilerin işlenme hızı konvansiyonel veri depolamasına göre daha uzun sürebilmekte (nanosaniyeler mertebesinde) ancak uzun bir dilimin fotoğrafını çektiğinizde ise muazzam bir depolama ve veri geri getirme verimliliği ortaya çıktığını göreceğiz.
Eğer insan beyninin veri depolama modelini temel yönleri ile incelersek benzer bir modelle karşılaşıyoruz. Tabii ki henüz keşfedildiği kadarıyla.
Derin öğrenme (deep learning) ara katmanı
Bu makalemde yapay sinir ağları (artificial neural network – ANN) konusunda detaylı bilgilere girmeyeceğim. Temel fonksiyonları ile karar verme süreçlerinde önemli bir güç, ara katmanlarına göre daha kuvvetli bir öğrenme sistemine sahip olan ve gerçek sinir sisteminden taklit edilen bir sistemdir. Bununla birlikte her sisteme uygulanması mümkün olmayabilmektedir.
Süper yükleyiciler adını verdiğim ve bunun zamanlar çok süper, süper süper, ultra süper gibi ilerleme ihtimalinin yüksek olduğu, verinin vektörün yönü ve şiddetinde etki yapan ağırlıkların mıknatıs özelliğine kavuşması ile tipik veri işleme algoritmalarından kolaylıkla çıkabilecek bir model elde etmiş olmaktayız. Depolanacak verilere daha üretildikleri anda mıknatıs özelliği kazandırırsak depolama ve veri havuzundan geri çağırma sırasında göndereceğimiz sorgu prob’larına yapışmalarını sağlayabiliriz. Bunun için vektörel hale getirdiğimiz veriyi farklı depolama merkezlerinde depolayarak, daha sonra çağırmak istediğimiz bir sorgu prob’u ile hızlıca geri getirebilir, düşük frekanslı bilgilerin zamanla otomatik olarak erimesini sağlayabiliyoruz.
Öğrenme/karar verme algoritmalarını da verilerimizin bulunduğu sentetik merkezlerin hemen üzerinde konumlandırarak bilgileri 2 boyutlu değil 3, (hatta zaman boyutunu da dahil ederek 4 boyutlu) bir hacimde saklamış ve işlemiş oluyoruz. Örneğin; bir kişiye ait, başı-sonu belli bir yapıda sınıflandırılmış binlerce veriden bir sonuç çıkarabilmek ve regresyon yapmak yerine, kişinin bizim hesaplama yapacağımız merkeze kendi mobil cihazı, otomobili veya evindeki IoT noktalarından göndereceği bilgiler doğrultusunda çok daha yüksek verimde ve kalitede sonuç çıkarabilmemize imkan sağlayacaktır.
Yine Sentetik Bulut Modeli’ne göre en altta kalan erişilebilir veriler giderek daha derine üstteki veriler ise giderek erimeye başlayacak şekilde tutulur. Bu sayede; tamamen aynı sonucu üretmek üzere çalıştırılacak bir algoritmanın; 1 PByte miktarındaki veride işleme süreci 5-10 dakikayı aşarken, bu modelde süre birkaç saniye civarında olacaktır. Üstelik veri arttıkça işleme süresi neredeyse hiç artmayacaktır.
Elimizdeki fonksiyonlar ne eriyen veri katmanına ne de en alttaki buzul katmana ulaşabilecek şekilde modellenmiş değildir. Sadece ara (gizli) katmanlarda çalışacak şekilde geliştirilmiştir. İlgili uç noktalardan sadece son durum bilgilerini almak ve kullanmak üzere (input) çalışmaktadır. Bu ise; “dağıtık”, “sürekli öğrenebilen”, “sürekli gelişen”, “sürekli optimizasyon yapan” bir veri saklama ve dağıtma bulutu ortaya çıkarmaktadır. Aynı zamanda sentetik bulut ağını oluşturan noktalardan biri veya bir kısmı yok olduğunda sistem sorunsuz şekilde işlemeye devam edebilecektir.
Sentetik Bulut Mimarisi’nin en önemli özelliği dünyadaki tüm veri depolayıcıların, (ki buna otomobilinizden, akıllı telefonunuza, hatta evinizdeki televizyonunuzdan, trafik ışıklarına kadar tüm hafızası olan ve internet ağına bilgi sunabilen cihazlara kadar) belirli verileri içerisinde tutabilmesi, belirli kurallara bağlı olarak bunları ilan etmesi ve yayması, ardından tekrar bilinmeyen bir zamana kadar kapanması esasına dayalı veri saklama ve yayma (broadcasting) modelidir. Tabii ki verileri “isteyenlere” dağıtan bir ağ yapısından bahsediyoruz.
“Hangi renk” sorusu yerine “Ne kadar mavi” sorusunu sormak “aradığımızı bulma” süresini %1’e kadar düşürebilir…
Örneğin, yüz tanıma sistemlerini incelediğinizde giderek daha güçlü hale gelen ve daha iyi tanıma yapabilen algoritmaları bulabilirsiniz. Önemli olan kişiyi doğru tanımlamayı yapabilmektir. Oysa bir havalimanında, milyonlarca yüz bilgisi içeren ortak yüz tanıma veritabanından kişinin yüzünün bulunması beklediğinizden çok daha uzun sürebilir. Bu ise Sentetik Bulut Mimari’sinde sizinle ilgili ulaşılabilecek diğer bilgilerin de harmanlanması ve dağıtık veri işleme merkezlerinden gelen bilgiler sayesinde 2-3 saniye mertebesine kadar düşebilmektedir. Dağıtık mimaride veri işleme merkezleri, mıknatıs verileri tutan merkezlerin kendisi değil verileri işlemek üzere bu merkezlere başvuran farklı sistemlerdir. Gün içerisinde uçuşu olan yolcuların vektörü sentetik “havayolu uçuş bilgi sistemi”nden geldiğinde vektör yaklaşık yüzde 90’ın üzerinde bir bilgiyi eriterek kalanlar arasında daha hızlı istenilen bilgiye ulaşabilecektir. Elde edilen kişi ve sunulacak servislere dışında diğer tüm bilgiler eritilecektir.
Çok büyük verinin dağıtılmasında kullanılabilecek diğer örneklerden biri de havacılık sektöründen.
Havalimanlarında, saha ekip ve araçlarının takibi ve diğer araçlarla oluşan dalgaların tasarımında, yolcu-uçul bilgileri ile optimal bir yolculuk süreci planlayabilecek sentetik bulut uygulamasına örnek sunmak istiyorum.
Havayolu ile havalimanı bilgilerinin eşleştirilmesi, kullanılması ve işlenmesi.
Evinden sabah 9’da çıkması gereken Mustafa bey, 9:50’de hala evdedir. Bu bilgi buzdolabından, cep telefonuna birçok sentetik merkezden serbest yayınla yayınlanır. Havalimanı yolcu bilgi sistemi, o gün ve yaklaşan 4 saat içerisinde uçuşu olan yolcuları tarayarak hangi yolcuların yaklaşık ne kadar zamanda havalimanında olacağına ulaşabilir. Bu bilgileri, havalimanının kaynakları, hava durumu, şehirdeki trafik yoğunluğu, varılacak meydandaki slot bilgisi, yer hizmetlerinin uçağa sunacağı servislerin zamanlaması gibi bilgileri de harmanlayarak olası bir rötar ve hedef havalimanında kapı açma zamanı için hesaplama yapar. Bu ise zincirleme tüm meydanların ulaşabileceği şekilde duyurulur. Gelen uçağı bekleyen havalimanları serbest yayınlanan bu bilgi sayesinde kaynaklarını yeniden oluşturabilir. Hatta yakın geçmişin önemli diferansiyel geometrilerinden biri olan kelebek etkisi ile her bir rötarın tüm meydanlara dağıtılması ve bunun yayılan etkisinin dahi önüne geçmek mümkün olacaktır.
Tam bu noktada katı bilgi ile eriyen bilgi sentetik bulut merkezlerinde dönüştürülerek bir sonraki aşamaya gönderilir. Detaylı ham verilerimizin işlenmesi ile elde edilecek olan yeni veriler ise merkezi bulut birimlerinde saklanır. Geriye kalan veriler ise mobil cihazlarda, ad-hoc bulutta kalır. Bu bilgi havzasında yer alan küme ve derinlik bilgisi istenildiği gibi ayarlanabilir. Ancak ne kadar derine inmek isterseniz o kadar fazla veriyi işlemeniz gerekmektedir. Bu ise, zamanla dünya çapına yayılacak sentetik bulut ağının her bir düğümünde veriyi işleyip gönderecek minik kodların sayesinde mikrosaniyeler içerisinde yapılabilecektir.
*İstanbul Yeni Havalimanı (IGA) İşletmesi