Büyük veriyle ilgili doğru bilinen yanlışlar
Büyük Veri ve Büyük Veri’nin analiz edilerek işletmeler tarafından kullanılması, iş dünyasının dijital yapılanmasıyla birlikte gün geçtikçe gelişim gösteriyor. EMC’nin Global Eğitim Hizmetleri bölümünün Teknik Danışmanı David Dietrich, Büyük Veri konusunda karşılaştığı “doğru bilinen yanlışları” yorumladı.
1. Büyük Veri’yle ilgili en önemli şey boyutudur
David Dietrich, Büyük Veri’nin boyutunu şöyle anlatıyor: “Büyük Veri daha çok verinin boyutu ile ilgilidir çünkü Büyük Veri adı üstünde büyüktür, öyle değil mi? Harvard Üniversitesi Kantitatif Sosyal Bilimler Enstitüsü’nden Gary King’e göre pek de öyle değil… Geçmişe göre daha fazla miktarda veriyle çalışıldığı bir gerçek, ancak insanlar ağırlıklı olarak gigabaytlara, terabaytlara, petabaytlara odaklanırsa, Büyük Veri’ye de veri depolama ve teknoloji ile ilgili bir sorun olarak bakıyorlar demektir. Bu her ne kadar önemli bir konu da olsa, Büyük Veri’nin daha fazla dikkat çeken yönleri genellikle diğer iki V oluyor: Variety (Çeşitlilik) ve Velocity (Hız). Hız, duraksız iletilen veriyi ve çok hızlı veriyi ifade ediyor. Düşük gecikme süreleri olan veriler bir veri havuzunda toplanıyor ve bu da insanların daha hızlı (hatta otomatik) karar almalarına olanak sağlıyor.”
Birçok insan verileri rakamlardan oluşan sütun ya da satır olarak düşünür, örneğin bir Excel tablosu, RDBMS ve terabaytlarca yapılandırılmış veri saklayan veri depoları gibi… Bu doğru olsa da, Büyük Veri ağırlıklı olarak yarı-yapısal ya da yapılandırılmamış verilerle ilgilidir. Büyük Veri insanların veriler hakkında düşünürken aklına gelmeyen, RFID yongaları, akıllı cep telefonlarındaki jeo-uzamsal sensörler, resimler, video dosyaları, ses tanıma verileri ve bu verilerle ilgili meta veriler gibi diğer unsurların tümünü içerir.
2. “Şirketimin mevcut yapısıyla Büyük Veri’yi analiz edebilirim”
İşletmelerin, büyük veriyi işlerken farklı tür veri girdilerini (görsel, tıklama dizisi, video, ses ses izleri, XML, …) anlayabilen, depolayabilen, analiz edebilen ve bu verileri paralel bir şekilde işleyebilen yeni araçlara ihtiyacı vardır. Bu nedenle sektörde, bu ayrı veri kaynaklarını yönetebilen ve onlarla paralel bir şekilde ilgilenebilen yeni teknolojilere ihtiyaç duyuluyor.
3. Kusurlu veri kalitesi Büyük Veri’nin değersiz olduğu anlamına gelmeli
Büyük Veri kuşkusuz dağınık olabilir ve veri kalitesi de her tür analiz için önemlidir. Ancak, unutulmaması gereken önemli şey verinin doğası gereği “gürültülü” olduğudur. Yani, dikkati dağıtacak birçok şey, farklı birçok anormallik ve tutarsızlık olacaktır. Önemli olan budanabilen ve değerli analizler için kullanılabilen verinin miktarına ve çeşitliliğine odaklanmaktır. Bazı durumlarda, işletmeler büyük veri kaynaklarını ayrıştırmak ve temizlemek isteyecektir, bazılarında ise bu daha az önemli olacaktır.
Dietrich, bu noktada “Google Trends” örneğinden yola çıkıyor ve şöyle açıklıyor: “Google Trends, Google’da en çok arama yaptıkları başlıkları gösterir. Örneğin insanların 2013 senesi boyunca Google’da en çok arama yaptığı başlıkları bulmak istediğimizi düşünelim… Yapılan aramaları taramak ve sıralamak olağanüstü büyük bir depolama kapasitesi, işlemci gücü ve güçlü analitik teknikler gerektirir. Bu GİGO’ya daha az odaklanılan Büyük Veri kullanımına bir örnektir.”