Açık veri, açık bilim, açık inovasyon…
Özellikle son 20 yılda yaşanan dönüşüm ile günümüzde yapılan tüm bilimsel araştırmalarda veri ve verinin analizi en kritik bileşeni oluşturmaktadır. Bu durum, günümüzde, hem veride hem de bu veriyi analiz edecek teknolojilerde baş döndürücü bir değişime tanıklık etmemize neden olmaktadır. Bu bakımdan verinin ekonomik olarak oldukça değerli olduğu, teknolojinin hızla değiştiği heyecanlı bir dönemden geçmekteyiz.
Günümüzde veri her yıl üstsel olarak bir artış göstermektedir. Büyük Hadron Çarpıştırıcısı, Hubble – Keppler Uzay Teleskopları gibi cihazlardan üretilen büyük miktarda veriler yanında Nesnelerin İnterneti gibi sensörlerden alınan veriler, farklı kaynaklardan edinilen görüntüler araştırma verilerinin temel kaynaklarını oluşturmaktadır. Yapılan araştırmalara göre 2017 yılında saklanan veri 125 Exabyte seviyesinde iken, 2025 yılında bunun zetabyte seviyelerine çıkacağı tahmin edilmektedir.
Bu ihtiyaç beraberinde bilişim ve iletişim teknolojilerinde gelişimi de getirmiştir. Teknoloji hem ucuzlamış hem de oldukça ilerlemiştir. Örneğin bundan 60 yıl önce 1GB veriyi tutma maliyeti 2.64 milyar dolar seviyesinde iken şimdi bu maliyet 4.9 dolara kadar düşmüştür. Yine 5MB veriyi tutmak için ağırlığı tonları bulan cihazlar kullanılırken şimdi trilyonlarca biti tek bir disk tablasında tutabilmekteyiz. Diğer taraftan Moore yasasına göre bu veriyi işleyebilecek işlemci gücü her 18 ayda aynı maliyetle 2’ye katlanmaktadır. Tüm bu gelişmelere rağmen dramatik şekilde büyüyen verinin ancak %1’i mevcut durumda arşivlenip saklanabilecek durumdadır. Bu durum, özellikle fon sağlayıcıların kaynakları verimli kullanma noktasında ve verinin yönetimi konusunda politika geliştirmelerini zorunlu hale getirmiştir.
Akademik araştırma özelinde konuşmak gerekirse araştırmacının ya da araştırma grubunun ürettiği, topladığı, farklı yazılım veya araçlarla analiz ettiği bir veri seti bulunmaktadır. Bunun yanında bu veri setinden çıkardığı ve konferans, dergi vb. ortamlarda yayınladığı bulgular bulunmaktadır. Bilimsel araştırmada bu bir bütündür, ve bulgunun çıkarıldığı veri ve yazılımların, günümüzde teknolojinin paylaşılmasına imkan vermesine rağmen, kara kutu şekilde diğer araştırmacılara kapalı tutulması çeşitli sorunlara neden olmaktadır.
Açık veri, açık bilim ve sonrasında üzerine inşa edilebilecek açık inovasyon; aslında yapılan bu çalışmayı bir bütün olarak görüp sadece bulgunun değil; kullanılan yazılımın, sürecin, bilimin tamamının bilimsel sorgulama ve tartışmayı teşvik etmek amacıyla açık olmasını savunur. Bu yaklaşımın verinin tekrar kullanılabilirliğini artırmak, tekrar veri toplamanın maliyetini düşürmek, araştırmanın etkisini ve görünürlüğünü artırmak gibi pekçok avantajı vardır. Bunun haricinde benim çok önemsediğim bir avantajı ise veriyi üreten ve kullananlar arasında işbirliğine yol açmasıdır.
2023 ulusal stratejik hedeflerimizden biri olan yüksek teknoloji ürünleri üretebilmemiz ve ihracat oranını artırabilmemiz için işbirliği şarttır. Eskiden endüstrileşen toplumlarda hızlı ve kaliteli üretim yeterli iken rekabetin yüksek olduğu günümüzde katma değerli ürünler üretebilmemiz için farklı disiplinden insanların işbirliğinde bulunması zorunludur. Bu nedenle özellikle kamu kaynakları ile desteklenen ve hassas bilgi içermeyen araştırmalarda üretilen her türlü bilginin (veri, yazılım, makale, bulgular) açık olması gereklidir.
Yukarıda bahsedilen nedenlerle fon sağlayıcılar çeşitli politikalar geliştirmiştir. Avrupa komisyonu, 2017 yılı itibariyle fonladığı tüm Ufuk 2020 projelerinde kullanılan verilerin açık olmasını zorunlu kılmıştır. Benzer şekilde ABD’de National Institute of Health (NIH), İngiltere’de Royal Society gibi bir çok fon sağlayıcı da benzer politikalara sahiptir. Bilimsel bir araştırmada verinin ömrü çoğu zaman araştırmadan daha uzun sürmektedir. Verinin araştırmanın tamamlanması sonrasında da tutulabilmesi ve başka bir araştırmada kullanılabilmesi için iyi hazırlanmış bir veri yönetimi planına sahip olması gerekmektedir. Bu nedenle dünyada pek çok enstitü, üniversite gibi araştırma kurumlarının yürüttüğü çalışmalarda, kendilerine özgü hazırladıkları ve araştırmacıların uymalarını bekledikleri bir veri yönetim planı bulunmaktadır. Ayrıca, açık verinin de sahip olması gereken belirli nitelikler vardır. Bunlar, dünyada yaygın şekilde FAIR (Findable, Accessible, Interoperable and Reusable) olarak tanımlanan; verinin bulunabilir, erişilebilir, birlikte çalışabilir ve tekrar kullanılabilir olması özellikleridir. Açık erişim ve FAIR birbirleriyle karıştırılan terimlerdir. Her FAIR olan veri açık veri olmak zorunda değildir. Özetlemek gerekirse verinin açık olup olmamasına bakılmaksızın bir veri yönetim planınına sahip olması ve tanımlanan bu nitelikleri içermesi önemlidir.
Verinin nasıl yönetileceği önemli bir konudur ve bunun nasıl yapıldığını araştırmacılara anlatmak için veri yaşam döngüleri sıklıkla kullanılır. Her bir araştırma topluluğuna uygun tek bir araştırma döngüsü yoktur. Bu nedenle farklı organizasyonların, DDI (Data Documentation Initiative), DataONE (Data Observation Network for Earth), DDC (Data Curation Center) gibi farklı veri yaşam döngüleri vardır. Burada, UK Data Archive tarafından 6 adımda tanımlanan yaşam döngüsü baz alınarak sunulan servislerden bahsedilecektir. Bu adımlar; verinin yaratılması (creating data), veri işleme (processing data), veri analizi (analysing data), verinin korunması (preserving data), veriye erişim sağlama (giving access to data), verinin yeniden kullanımıdır (re-using data).
“Bilimsel verinin analizinden uzun vadeli arşivi ve yönetimi” temalı çalışmalar, Avrupa’da önemli olan iki büyük oluşum, PRACE (Partnership for Advanced Computing in Europe) ve EUDAT CDI (Collaborative Data Infrastructure) tarafından üzerinde çalışılmaktadır. PRACE, aralarında ülkemizinde yer aldığı 26 üye tarafından oluşturulmuş, AB tarafından desteklenmiş 2016 yılında kurulan uluslararası bir oluşumdur. Avrupa’da etki değeri yüksek büyük ölçekli bilimsel ve mühendislik uygulamalarının çalışabilmesi için gerekli süper hesaplama altyapısının kurulması ve bu altyapı üzerinden hesaplama ve veri yönetimi servislerininin sunulması bu proje kapsamında yapılmaktadır. EUDAT, Horizon2020 kapsamında desteklenen 36 üye kuruluşa sahip bir oluşumdur. Araştırma veri merkezleri ve topluluk veri sağlayıcıları arasında bir köprü kurarak farklı disiplinden ve ülkelerden gelen araştırma gruplarına verinin paylaştırılması ve korunması hedeflemektedir.
EUDAT, veri yaşam döngüsünde yer alan her bir adım için araştırmacıların hizmetine geliştirmiş oldukları bir veya birden fazla servis sunmaktadır. B2 ön eki ile başlayan bu servisler B2ACCESS, B2HANDLE, B2SAFE, B2STAGE, B2NOTE, B2SHARE, B2DROP ve B2FIND adıyla verinin FAIR prensiplerine de sahip olmasını destekleyecek şekilde sunulmaktadır. Böylece, verinin yüksek başarımlı hesaplama merkezlerinde analiz edilmesini de olanak sağlayan ortak veri altyapısı (Collaborative Data Infrastructure) kurulmuştur.
B2ACCESS, tüm araştırmacıların bu altyapıya erişimini yöneten servistir. Sosyal hesapların yanında eduGAIN, ORCID gibi çok geniş ağ üzerinden araştırmacıların yetkilendirilmesine olanak sağlamakta ve tüm bu B2 servislerine erişime izin vermektedir. B2Drop, Dropbox veya Google Drive’da olduğu gibi küçük araştırma takımların veya bireysel verilerin depolanması, gönderilmesine olanak sağlamaktadır. Owncloud üzerine entegre edilen bu servis araştırmacının masaüstünde yer alan verileri senkron etmesine yardımcı olur. B2Share, daha büyük gruplar için oluşturulmuş verinin depolanması, paylaştırılması ve uzun dönem korunmasını sağlayan önemli bir servistir. Konteyner üzerinden sunulabilen bu servis, araştırmacıların topluluklara ayrılmasını sağlar ve her bir topluluğun araştırma verilerini kendi ihtiyaç doğrultularında yönetmelerine ve politika geliştirmesine olanak sağlar. Her bir veri için kendi tanımladıkları üstveri (metadata) şablonuna göre araştırmacıların verilerini girmelerini zorunlu tutar. B2FIND ise herhangi bir yetkilendirme mekanizması olmaksızın tüm kullanıcıların kolayca veriyi bulabildiği ve var olan veri ile hızlı bir genel bakışın sunulabildiği bir servistir. 2019 yılı sonu itibariyle sistemde kayıtlı 22 araştırma komitesi, bazı komitelerin yüzlerce bazılarının ise yüzbinlerce kayıtlı veri seti bu altyapı üzerinde tutulmaktadır. Bu önemli servislerin yanında araştırmacıların, verilerinin bir kopyasını güvenli başka merkeze almak istediklerinde kullanabilecekleri B2SAFE, yüksek başarımlı hesaplama merkezlerine transfer etmek için B2STAGE, veri setini kalıcı benzersiz tanımlayıcı (unique persistent identifier) ile kayıt etmek için B2HANDLE ve veriyi zenginleştirmek için etiket eklemek için B2NOTE servisleri de vardır.
Ülkemizde de bu konuda önemli çalışmalar yapılmaktadır. 2012 yılında ilk Ulusal Açık Erişim Çalıştayı düzenlenmiş ve her yıl sürdürülerek devam etmiştir. 2019 mart ayında TÜBİTAK tarafından ilan edilen Açık Bilim Politikası ülkemiz açısından önemli bir gelişmedir. TÜBİTAK tarafından yürütülen veya desteklenen projelerden üretilen yayınlar ile araştırma verilerinin yönetimi saklanması, arşivlenmesi, derlenmesi ve dijital korunması TÜBİTAK Açık Bilim Politikası’nın çerçevesini oluşturmaktadır.
Belirlenen politikaya uygun şekilde ulusal düzeyde çalışmaların yürütülmesi TÜBİTAK ULAKBİM’in yürütmekte olduğu pek çok çalışma aracılığıyla yapılmaktadır. Bu kapsamda TÜBİTAK Açık Arşivi olan APERTA kurulmuş ve araştırmacıların hizmetine sunulmuştur. APERTA, TÜBİTAK destekli projelerin, UBYT destekli çalışmaların ve TRUBA üzerinde yapılan çalışmaların araştırma verilerini ve yayınlarını tutması, ve paylaşması planlanan bir açık arşiv servisidir. Bunun yanında bu içeriğin oluşturulmasında da oldukça faydalı olan ve açık erişime ait veri yönetim planları, eğitici materyallerin yer aldığı ciddi bir rehber sunan kapsamlı bir portal bulunmaktadır (https://acikveri.ulakbim.gov.tr). APERTA ve Portal doğrudan açık erişime yönelik geliştirilmiş servislerdir. Bunun yanında, önceden başlatılmış olan ve açık erişim için anahtar konumda olan servisler de bulunmaktadır. Örneğin, DergiPark ile ulusal düzeyde yapılan çalışmalarla üretilmiş 450.000 üzerinde makale araştırmacıların hizmetine herhangi bir erişim kısıtı olmaksızın sunulmuştur. Benzer şekilde HARMAN projesi ile ulusal açık arşivler, dergiler ile arama motoru servisleri arasında ilişki kurularak içeriğe ait üst verinin harmanlanması ile erişimi kolaylaştırılmış, kolay bulunabilir hale getirilmiştir. Bugün itibariyle bu proje de toplam 100 kurumda 970.000 kayıt içerisimde arama yapılabilmektedir. Ülke kaynakları kullanılarak bu zamana kadar yapılan bu araştırmalarda üretilen bilgilerin tüm araştırmacılara sunulmasını sağlayan bu projelerin ülkemiz açısından önemli kazanımlar olduğunu düşünüyorum.
Açık veri, açık erişim konusunda araştırmacılar için bir politika çevresinin belirlenmesi, çalıştaylarla farkındalık kazandırma girişimleri ve teknik olarak altyapı için gerekli servislerin sağlanması önemli gelişmelerdir. Ancak, ülke olarak iyileştirmemiz gereken ve üzerinde tartışmamız gereken bazı hususlar da bulunmaktadır. Örneğin, araştırma kültürü, açık erişimin geniş kitlelerde kabul görmesi ve yaygınlaşması noktasında oldukça önemlidir. Maalesef, farklı disiplinlerden veya üniversitelerden, sanayiden araştırmacıların bir araya gelip işbirliği içerisinde bulunma konusunda zayıf durumdayız. Bunun özendirilmesi gerekmektedir. Daha çok araştırmacıya ulaşıp verilen servislerin tanıtımı ve katacağı faydanın anlatılması gerekmektedir. Bugün paylaşıma açık araştırma verileri sayısına baktığımızda, hedeflediğimiz değerlerin oldukça altında kalmaktayız. Veri yönetimi planı, araştırma verisinin paylaşımı konusunda kritik bir öneme sahiptir ancak; araştırmaların bir kısmı bu plana sahip değildir. Son olarak, araştırma sonrasında çıkan makale, bildiri gibi yayınların erişime açık olması için bir destek mekanizması, özellikle uluslararası yayınların açık olmasını özendirebilecektir.
Son olarak, açık veri, açık erişim ile ilgili kapanışı kendi edindiğim tecrübeyi paylaşarak yapmak istiyorum. Doktora tezim de aort anevrizmalarının modellenmesi üzerine çalışıyorum. Dünyada örneklerine bakıldığında kalp ve damar cerrahları, radyoloji uzmanları, makine ve bilgisayar mühendislerinin beraber çalıştıkları pekçok çalışma olduğu gözlemlenmektedir. Çalışmaya başladığımda, araştırmaya istekli üniversite bünyesinde görev yapmakta hekimler olmasına rağmen analiz edilecek boylamsal veri bulunamamıştır. Maalesef, verinin dışarından başka bir üniversite veya disiplin tarafından analiz edilmesi noktasında hem üniversite hastanelerinde hem de hekimlerde ciddi bir endişe vardır. Uzun uğraşlar ve görüşmeler sonrasında veriler edinilememiş bir işbirliğine gidilememiştir. Günün sonunda Güney Kore’de bir üniversite hastanesinden bu veriler bulunmuş, Amerika’da başka bir üniversite ile işbirliğine gidilerek araştırmalar yapılabilmiştir. Farklı kıtalardan farklı disiplinlerden araştırmacıların iletişime geçmesi, birbirine bağlanması ve iş birliğinde bulunması araştırma verisi sayesinde olmuştur. Bu nedenle, iş birliğinin zorunlu olduğu dünyamızda verinin açık olması, araştırma kültürünün iş birliği konusunda destekler nitelikte geliştirilmesi, gelecekte araştırmaların inovasyona dönüşmesi, değer üretmesi konusunda hayati öneme sahiptir.
Faydalı Linkler:
- https://acikveri.ulakbim.gov.tr/acik-veri-acik-bilim/
- https://harman.ulakbim.gov.tr/index
- https://aperta.ulakbim.gov.tr/
- https://acikveri.ulakbim.gov.tr/acik-erisim/tubitak-acik-bilim-politikasi/
NOT: Bu dökümanın hazırlanmasında emeği geçen Ebru Aydın, Ebru Güneş, Filiz Mengüç, Hakan Bayındır, Murat Köreke ve Onur Bektaş’a, yaptığı öneriler ve düzeltmeler için teşekkür ederim.
Emrah AKKOYUN – Başuzman Araştırmacı Ağ Teknolojileri Birimi TÜBİTAK ULAKBİM