Arama motorlarının tarihçesi
Volkan İnanç
MoreClick Ajans Başkanı
Günümüz arama motorlarının temelini oluşturan bot sistemini kullanan ilk arama motoru Web Crawler, Washington Üniversitesinde geliştirildi. Bot sistemi, kullanıcıların aradıkları kelimelerle, aranılan web siteler arasında, içeriği en uygun sonucu bulmayı hedeflemekteydi.
Web Crawler’ın çıkışından sonra Lycos, Infoseek ve Altavista arama motorları geliştirildi. Altavista, Web Crawler’ı satın alarak güçlendi. Bu 3 arama motoru uzunca bir süre arama pazarında yer aldılar.
Yahoo ise 1994 yılında Yahoo!Directory’i kurarak, şirket bilgilerini kendine ait bir veritabanında toplamaya başladı. Ancak daha sonra sadece kendi veritabanı değil, webin bütününü tarayacak bir yapıya geçti. 200 milyon sayfayı tarayabilen ilk arama motoru olan Fast Search’ü satın aldı.
Google kuruluyor
Arama pazarında bunlar yaşanırken, 1995 yılında Google’ın kuru
Bir süre sonra Larry ve Sergey, doktora tezlerini bir kenara bırakıp projeleri için yatırım aramaya başlarlar. Başarısız birkaç denemeden sonra, Sun Microsystems’ın kurucularından Andy Bechtolsheim kendilerine 1998 Ağustos ayında 100 bin dolarlık bir çek yazar. Böylece Google’ın ilk temeli atılmış olur.
Çokça merak edilen bir konuda Google kelimesinin nereden geldiğidir. Google kelimesi Milton Sirrota tarafından, Kasnel ve James Newman’ın yayınlamış oldukları “Matematik ve Düş Gücü” adlı kitapla ünlenen googol kelimesinin üzerinde oynanmasıyla bulunmuştur. Googol 1 den sonra 100 adet sıfırın geldiği bir rakamı ifade eder.
Google aramadaki başarısını, diğer alanlarda da tekrarladı. Birçok ürün geliştirdi ve irili ufaklı onlarca şirket satın aldı. 2000 Adwords reklamlarını CPM bazında satmaya başladı. 2002 Adwords’ü açık artırma yerine dönüştürdü. 2003 yılında Adsense programını devreye aldı. 2005 yılında Google Maps ve Google Analytics hizmete girdi. 2006 Google Video açıldı ve Youtube.com’u satın aldı.
Arama motorları nasıl çalışır ?
Arama motorlarının gelişimi ile arama teknolojilerinin gelişimi paralel seyretmiştir. Bu gelişimde önde olanlar arama pazarından daha fazla pay alabilmiştir.
Aramadan önceki adım: İndeksleme
Bir web sitesinin önemini belirleme dolayısı ile sıralamadan önceki adım, web sitesinin indekslenmesi yani içeriğinin arama motoru sunucusuna aktarılmasıdır. Bu işlem için hazırlanmış yazılımlara (botlara) spider ya da web crawler denir. Bu yazılımlar, web siteleri üzerindeki linkleri takip ederek buldukları siteleri tararlar ve okunabilir içeriği (metin içerik) arama motorlarının ilgili sunucularına kayıt ederler. Sayfa güncellemesi ve içeriğin güncelliği için bu işlemi belirli periyotlarla gerçekleştirirler.
Meta arama motorları ve sonrası
İlk arama motorları bugünkü arama motorlarına göre oldukça ilkeldi. Bir sayfayı tanımlamada meta etiketlerini kullandıklarından bu tür arama motorlarına meta arama motorları deniliyordu. HTML standartlarında yer alan bir sayfaya ait tanımlama bilgilerinin yer aldığı ve kullanıcılar tarafından görülemeyen kod satırlarına “meta tag” ya da “meta etiketler” denilmektedir. Bu etiketlerde sayfayı tanımlayan başlık, açıklama ve anahtar kelime gibi alanlar bulunmaktadır. İşte arama motorlarının botları bu kısımları okuyarak sayfaları tanımaya çalışıyorlardı. Ancak bu tanımlama yetersiz olmasının yanında ciddi bir biçimde manipüle edilebiliyordu. Çünkü bu etiketler kullanıcı tarafından görünmediğinden, sayfa sahibi bu alan alakasız onlarca sözcük doldurabiliyordu.
Bu sorun, arama motoru geliştiricileri tarafından çözüldü. Bir sayfayı tanımlamada, sayfa sahibinin verdiği bilgilerin (meta etiketler) yanında, sayfanın orijinal içeriğinin de taranarak kontrol edilmesine dayanıyordu. Yani arama motoru botları meta etiketlerle beraber, sayfanın tüm okunabilir içeriğini de kendi sunucularında indeksliyor ve sonrasında yorumluyordu. Anahtar kelimenin sayfa içerisinde geçme yoğunluğu (keywords density) sayfanın alakalı olmasını işaret ediyordu. Böyle bir yaklaşımla sayfa sahiplerinin arama motorlarını aldatması oldukça güçleşecekti. Fakat bir süre sonra bu yaklaşımında bir sayfayı tanımlama ve sıralama da yetersiz olduğu anlaşıldı. Bilhassa sıralama konusunda… Birincisi, içeriğin içine aldatıcı kelimeler yerleştirmek imkansız değildi. Sayfanın önemsiz yerlerine konulmuş içerikler, okunması güç (küçük fontlarla ve arka plan rengi ile yazılmış) içeriklerle de arama motorlarını aldatmak (spamming) mümkün olabiliyordu. Ayrıca, içeriğin analizi sayfanın önemini anlamakta oldukça yetersiz kalıyordu.
İşte bu noktada Google’ın geliştirmiş olduğu teknolojilerin başarısı devreye girdi. PageRank algoritması. Aslında PageRank’den önce küçük bir arama motoru olan ve Robin Li tarafından IDD Bilişim Hizmetleri adına geliştirilen “RankDex”, zaten 1996’dan beri site puanlaması ve sayfa sıralaması için benzer bir strateji kullanıyordu. Bu teknoloji RankDex patentliydi ve Li’nin Çin’de kurulmuş olduğu Baidu adını taşıyan arama motoru bu sistemle çalışıyordu.
PageRank algoritması patenti Standford Üniversitesi’ne ait olan bir teknoloji ve halen “The Anatomy of a Large-Scale Hypertextual Web Search Engine” başlığı ile projeyi görmek mümkün. Projeyi yazanlar
Sergey Brin ve
Lawrence Page.
PageRank teknolojisi, bir sayfanın önemini anlamada, sayfaya yapılan bağlantıları inceliyor ve bunu matematiksel bir formülle hesaplıyor. Bu yaklaşıma göre, bir web sayfası başka web sayfalarından bağlantı (link) aldıkça güçlenir ve önem kazanır. Bağlantı verdikçe gücü azalır. Tabi alınan bağlantının ne kadar güçlü bir web sitesinden alındığı ve bu sayfanın içeriğinin ne olduğu çok önemlidir. Bu yaklaşımla Google bir sayfayı incelerken sayfanın komşu sitelerine de bakıyor, bir sitenin önemini belirleyebilmek için ağın tamamını tarıyor. Bu inanılmaz güçlü bir donanım altyapısı ve işlemci gerektiriyor.
Bunu anlamak için PageRank formülünü incelememiz yeterli olacaktır:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
formüldeki değişkenler şunlardır:
PR(A)= A sitesine ait PageRank değeri.Tüm siteler için ilk başta 1 kabul edilmektedir.
d = “damped down” faktörü denilen özel bir katsayı ve 0.85 kabul edilmekte.
PR(Tn) = A sitesine link veren herhangi bir sitenin pagerank degeri.
C(Tn) = A sitesine link veren herhangi bir sitedeki link sayısı adeti.
Bu algoritma ile Google web sayfalarının başarısını ağın tamamına bakarak değerlendirdi ve böylece alakalı arama sonuçları listeleyebilir hale geldi. Günümüzde en başarılı arama motoru olmasının altında bu ve benzer teknolojiler yatmaktadır.
volkan@moreclick.com