“Veri ambarı ve büyük veri elele verirse?!?”
Herkesin dilinde, her etkinlikte büyük veri var. Bu sunuların ilk beş-on dakikası, 3V’yi anlatmakla, dünyadaki verinin saatte kaç kilometre hızla büyüdüğü, yere göğe sığmadığı ve sığmayacağını aktarmakla başlıyor. Bir kavramı anlamak ve anlatmak çok önemli. Kavram anlaşıldığında ve gerçekleştirildiğinde, o kavramın üstünden üretilen teknolojiler, ürünler ve hizmetler doğru şekilde değerlendirilebiliyor.
Bence, büyük veri kavramını ve algısını birçok üretici farklı açıdan anlatsa da, bu kavram üzerinde bir asgari müşterek oluştu artık. Büyük veriden “verim” sağlayacak “tüketici”, yani bu ürün ve hizmetleri alacak müşteriler, kurum içinde uygulama yapacakları bir alan arıyorlar. Kurumlar dönüp kendi veri işleme envanterlerine baktıklarında, geçtiğimiz yıllar boyunca Operasyonel/Transactional Sistemlerini kurduklarını, bunun üstüne de veri ambarları inşa ettiklerini görüyorlar. OLTP’den, veri ambarını besleyerek raporlar çekiyorlar, karar süreçlerini daha doğru verilerle besleyip, daha hızlı karar almaya çalışıyorlar. Bu yapılanların üzerine acaba büyük veri bana daha fazla ne katabilir diye herkes arayış içinde!
Büyük veri teknolojisinin kullanılabileceği alanlara bakıldığında beş temel “Use-Case” görüyoruz.
Büyük veri arama: Karar verme sürecini daha etkin kılmak için tüm büyük veri kaynaklarını aramak, taramak, görselleştirmek. Buradaki en önemli girdi sosyal medya.
360 derece müşteri görüntüsü: İç ve dış bütün veri kaynaklarıyla müşteri analizi. Sosyal medya, OLTP ve veri ambarını tekmişcesine inceleyebilme becerisi.
Güvenlik ve istihbarat yetkinlikleri: Düşük risk, gerçek zamanlı dolandırıcılık, izleme ve siber güvenlik algısı. Güvenlikle ilgisi olan herkesin en ilgili olduğu alan.
Operasyon analizi: Sensor ve Log Analizi yaparak sonuç geliştirme. Özellikle makine, sensor vb. elektronik her şeyin ürettiği sinyalleri anlık işleme ve karar destek süreçlerini besleyebilme yetkinliği.
Veri ambarı eklentisi: Operasyonel verimliliği artırmak için büyük veri ve veri ambarı özelliklerini bütünleştirmek.
Günümüzde, veri ambarı olmayan bir kurum artık kalmadığına göre beşinci seçenek, bence bir kurumun büyük veri çözümleriyle tanışıp, uygulaması için en hızlı seçenek olabilir.
Mevcut veri ambarlarımız çoğunlukla, çok büyük miktarlarda yapısal verilerin, yüksek maaliyetli donanımlar üzerinde biriktirildiği ve sürekli gittikçe büyüdüğü, karmaşık sorguların çalıştığı yapıdadır. Kullanıcı sayıları ve kullanıcı taleplerindeki çeşitlilik ve sayının artış eğilimi, ambara giren verilerin de sayısının artması ile veri ambarlarının motorları klasik veritabanlarından, appliance dediğimiz çözümlere doğru evrilmekte. Bu evrilme sırasında büyük veri bize başka olanaklar sunuyor.
• Yapısal olan ve olmayan verilerle, akan verilerin büyük resmin içinde olup hep birlikte değerlendirilebilmesi, analitik sürece dahil edilebilmesi.
• Daha sorgulanabilir, göreceli olarak daha düşük maliyetli bir ortam sağlanması.
• Soğuk verilerin taşınabileceği, veri saklama, lisans ve bakım maliyetlerinin aşağı çekilebileceği
• Şimdiye kadar “akan veri analizi”nin mevcut veri ambarlarında hiç yapılmamış olmasından dolayı, bu tip veri kaynaklarının “işlenerek” veri ambarına yazılmasıyla, saklama maliyetlerinden tasarruf edilmesi.
Bunlar bir çırpıda, göze çarpan hızlı kazançlar.
Büyük veri teknolojileri ve veri ambarlarını eklemlemenin yukarıdaki kazanım ve ihtiyaçlar göz önüne alındığında üç yaklaşımla yapıldığını görüyoruz.
• Ön işleme
Kurum mimarisinde, büyük veri, veri kaynaklarının ön tarafına eklenecek, “staging” görevini üstlenen bir Kurumsal Hadoop Sunucusu, veri ambarına hangi verilerin girip girmeyeceğini ve filtrelemesini yapabilir. Bu yaklaşımla, büyük veri kaynaklarındaki veriler, temizlenerek, filtrelenerek ve anlamlı hale gelerek, veri ambarına yerleştirilir. Bu şekilde hem yeni veri kaynaklarından mevcut ambara, daha önce veri ambarında hiç olmamış verilerin akışı sağlanmış olur, hem de bu ön filtreleme ve analiz ile veri ambarının daha değerli olan saklama ve hesaplama maliyeti, gereksiz veriler yüklenmediği için, korunmuş olur.
• Sorgulanabilir arşiv
Bu yaklaşımda, mevcut veri ambarında daha az erişilen soğuk veriler, daha ucuz maliyetli olan bir Kurumsal Hadoop Sunucusu’na veri aktarım araçları ile taşınabilir. Federation teknolojilerinin yardımı ile son kullanıcılar her iki kaynaktan, tek kaynakmışçasına sorgulama yapmaya devam edebilirler.
• Keşifsel analiz
Bu yaklaşımda ise, büyük veri kaynakları, akan veri analizi tekniği ile (Stream Computing) incelenip, analiz edilirken, yapılan bu analizlerin sonuçları hem anlık olarak değerlendirilebilir hem de mevcut veri ambarına beslenerek oradaki yapısal sorgulama ortamının bu keşifsel analiz sounçlarından faydalanması sağlanabilir. Bu yaklaşımın bir diğer avantajı, büyük veriyi tekil (unique) yapan teknolojilerin başında gelen “Stream Computing”in mevcut veri ambarı bileşeninin çalışmasını ve çıktılarını etkilemeden, mevcut yapıya en az müdahale ile bütünleştirilmesini sağlamasıdır.
Bu üç seçenekten birisi ile kurumdaki veri ambarının yanına bir büyük veri çözümü eklemleyerek, bu teknolojiyle tanışıp, kullanmaya başlamak artık an meselesi.