“Big Data” nedir? Geleneksel “Veri Yönetimi”ne etkisi ne olabilir?
CÜNEYT GÖKSU
Teknolojinin yaygınlaşması, herkes tarafından ulaşılabilmesi ve kullanım biçiminin dönüşmesi, üretilen ve işlenen verinin büyüklüğünün de devasa olarak artmasını beraberinde getirdi. Nasıl ki kişisel hayatlarımızda iki üç disket veya birkaç CD’ye sığan bilgilerimiz artık 1TB’lık yüksek kapasiteli disklere zor sığar hale geldiyse, kurumlar da bu devasa hız ve çeşitlilikte artan verilerini nereye sığdıracaklarını bilemiyorlar. Büyük miktarda veri ile uğraşmak BT’nin yabancı olduğu bir konu değil fakat Big Data-Büyük Veri konusu, veri ambarı, ODS, iş analizi ve veri analizi başlıklarından oldukça farklı.
Verinin üretilme hızı ve çeşitliliği o kadar fazla ki, veri saklama cihazlarının teknolojileri ve üretilme hızları, bu hızın gerisinde kalıyorlar. Saklama ve veri işlemenin birim maliyetleri azalsa da hızlı üreyen veriyi saklamak ve işlemenin toplam maliyeti artıyor.
– 2020’lerde toplam sayısal verinin 35ZettaByte olması bekleniyor. 1 ZettaByte = 1 Milyar TeraByte. Bloglar, sosyal medya, elektronik alıcılar gibi cihazlar tamamen yapısal olmayan yepyeni bir dünya sunuyorlar.
– Cep telefonları, internetteki yapılan her tık, sayısal fotoğraf makineleri veri üreten birer fabrikaya dönüştü. Geçen on yıldan beri veri tabanı sunucularının sayısı 6 kat artarak, 32 milyona çıktı.
– Mevcut verilerin yüzde 80’i yapısal değil; E-posta, fotoğraf, video, müzik dosyası, XML, vb şeklinde ortaya çıkan, geleneksel ilişkisel veri tabanlarında saklanmayan, “Gri Data” olarak adlandırılan “Ham” veri.
– Özellikle sağlık ve finans sektörü ile hükümetlerin Büyük Veri konusuna daha çok kafa yormaları gerekecek. Çünkü hukuki olarak geriye dönük bu devasa sayısal bilgilerin saklanması, yedeklenmesi, arşivlenmesi ve gerektiğinde hızlı olarak erişilebilir olması gerekiyor. İlk tahminler, ABD’nin sağlık sektörünün yıllık 300 milyar dolarlık büyük veri katma değerinde iş hacmine sahip olduğu yönünde.
McKinsey’in bir raporuna göre 2010’da ABD ve Avrupa’daki toplam saklama kapasitesi 30 ExaByte ama üretilen veri 1.2 ZettaByte. Bu durumda üretilen ama saklanmayan, saklanmadığı için de işlenmeden yok olan veri oldukça fazla. Bu yaklaşımdan yola çıkarsak, “veri işleme” konusunda da ezber bozan çözümler üretilmesi gerekiyor. IBM, Samsung, GE Global saklama ve özellikle veriyi “kaynağında işleyecek” teknolojiler üretme konusunda çalışıyorlar.
Büyük Veri olgusunu tarifleyen
beş bileşen var
– Volume (Veri Büyüklüğü): IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Şu anda kullanılan, “büyük” diye adlandırdığımız kapasiteleri ve “büyük sistemleri” düşünüp, bunların 44 kat büyüklükte verilerle nasıl başa çıkacaklarını hayal etmek gerekiyor! Kurumun veri arşivleme, işleme, bütünleştirme, saklama vb teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekli hem de hemen.
– Velocity (Hız): Büyük Veri’nin üretilme hızı çok yüksek ve gittikçe artıyor. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğuruyor.
– Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal değil ve her yeni üretilen teknoloji, farklı formatlarda veri üretebiliyor. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte “Veri Tipi” ile uğraşılması gerekiyor. Bir de bu verilerin farklı dillerde, Non-Unicode olabileceğini düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gerekli.
– Verification (Doğrulama): Bu bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşen. Akış sırasında, doğru katmadan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekiyor.
– Value (Değer): En önemli bileşen ise değer yaratması. Bütün yukarıdaki eforlarla tariflenen Büyük Veri’nin veri üretim ve işleme katmanlarınızdan sonra kurum için bir artı değer yaratıyor olması lazım. Karar veriş süreçlerinize anlık olarak etki etmesi, doğru kararı vermenizde hemen elinizin altında olması gerekiyor. Örneğin sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe vb detaylarda hastalık, ilaç, doktor dağılımlarını görebilmeli. Hava Kuvvetleri, bütün uçucu envanterindeki taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihçelerini izleyebilmeli. Bir banka, kredi vereceği kişinin, sadece demografik bilgilerini değil, yemek yeme, tatil yapma alışkanlıklarını dahi izleyebilmeli, gerekirse sosyal ağlarda ne yaptığını görebilmeli.
Büyük Veri’nin temel olgusu aslında yeni birşey de değil; adı değişse de geçmişte de vardı. İnternet kullanımının patlama yapması ve sanal olarak da olsa insanlığın daha çok sosyalleşmesi, birçok yeni teknolojinin ulaşılabilir ve ucuz hale gelmesi bizi bu devasa büyüyen veri okyanusunda yeni arayışlara itti. İş yapış biçimi de bizi buralara getirdi; geleneksel yaklaşımda iş sahibinin soru, sorun ve ihtiyaçlarına göre, BT mimariyi çıkartır; ihtiyaca cevap sağlardı. Günümüzde ise BT sunduğu platform ile iş sahibinin özgürce veriyi keşfetmesini sağlayacak altyapılar sunmak zorunda. Geleneksel ilişkisel veritabanları güncelliğini, OLTP işlevini artarak yerine getirmeye devam edecek olsa da, Büyük Veri’nin yeni ihtiyaçlarından dolayı, veriyi kaynağında işleyecek ya da IBM-Netezza, Oracle-Exadata, IBM-DB2 Analytical Machine gibi “appliance” olarak anlamlandırılan yazılım, uygulama ve donanımı içinde barındıran çözümler ve NoSQL, Hadoop, Cassandra, JAQL, HBASE vb daha emekleme aşamasındaki çözümler Büyük Veri’yi adreslemeye çalışacak.
Büyük Veri yeni bir platform ve veri işleme anlayışı getirecek, zaman içinde yazılım şirketlerinden bu konuda onlarca çözüm çıkacak ve mevcut bilgi depolarına bütünleşik edilerek büyümesi ve beraber yaşamaları kaçınılmaz hale gelecek. İlk çıkan ürünlerin çoğunluğu Açık Kaynak kodlu prototip uygulamalar olduğundan, ileri seviye danışmanlık ve küresel destek hizmetlerinden yoksunlar. Ama kurumsal sürümlerinin çıkması ve yine küresel yazılım şirketleri tarafından paylaşılması çok uzun sürmeyecek.
cuneyt.goksu@vbt.com.tr