Google içerikleri analiz ederken içeriğin önemini ve kalitesini belirlemek için çok sayıda sitem ve süreç kullanıyor.
Süreç temel olarak, “tarama ve indirme, indexleme, embedding, bağlantı analizi, birleştirme ve bilgi erişimi, kalite değerlendirmesi ve sıralama” aşamalarından oluşuyor.
Tarama ve indirme
Google’ın “Trawler” adlı tarama sistemi web sayfalarını indirir ve sayfayla ilgili istatistikleri toplar. Tarama sırasında “Harpoon” adlı sistemler Trawler’a yardımcı olur ve gerektiğinde URL denetim talepleriyle sayfaların yeniden taranmasını sağlar. Sayfa indirildikten sonra taranan içerikler “Blink” motoru ile son hale getirilir ve sayfa yapısı render edilir.
İndexleme
İçeriklerin kalitesine göre çeşitli indexleme katmanlarına ayrılmasını sağlayan bir sistem bulunur. “Base”, “Zeppeling” ve “Landfill” gibi katmanlar içeriklerin kalitesine ve güncelleme sıklığına göre sıralanır. En alakalı ve önemli belgeler Base seviyesinde, daha düşük kaliteli belgeler Landfill seviyesinde saklanır.
Embedding
Google içerikleri anlamlandırmak ve konusal ilişkileri belirlemek için “Starbust”, “Rene”, “GFE (Generic Feature Vector)” gibi embedding motorlarını kullanır. İçerikteki her kelime, cümle ve paragraf embedding adı verilen vektörlerle sayısal olarak ifade edilir ve bu vektörler belgenin hangi konularla ilgili olduğunu anlamada kullanılır.
Embedding site bazında da yapılır. Örneğin Site2Vec ile sitenin genel teması analiz edilir ve içeriğin siteyle ne kadar uyumlu olduğunu belirleyen siteFocusScore gibi ölçütler kullanılır.
Bağlantı Analizi
Google’ın “LinkExtractor” ve “AnchorAccumulator” sitemleri bağlantıların niteliğini analiz eder ve yalnızca yüksek kaliteli bağlantıların sayfa sıralamasını etkilemesine olanak tanıt. Bağlantının geldiği sayfa kalitesine, bağlantı metninin font boyutu ve bağlamına (bağlantı öncesi ve sonrası terimler) göre bağlantıyı değerlendirir. Kötü ve spam bağlantılar düşük öncelikle ele alınır ve sıralamada dikkate alınmaz.
Birleştirme ve Bilgi Erişimi
İçeriğe dair tüm bilgilerin birleştirildiği “Docjoins” ve “Composite Docs (CDocs)” sistemleri her belge hakkında bilinen tüm verileri bir araya getirir. Belgenin dili, bölgesel bilgisi, bağlantı verisi ve kalite sinyallerini içerir. Cdocs, her belgenin tam bir temsilini oluşturur ve arama sorguları sırasında hızlı erişimi sağlar.
Kalite Değerlendirmesi ve Sıralama
İçeriğin sıralama aşamasında “Mustang” gibi sitemler devreye girer ve burada RankBrain, Deeprank, RankEmbed gibi makine öğrenimi algoritmaları içeriğin sıralanmasında rol oynar. “Ascorer” adlı modül yüzlerce sinyali değerlendirerek sonuçların sıralamasını belirle. Bu aşamada içeriklerin genel kalitesi ve kullanıcı arama amacına uygunluğu gibi faktörler göz önünde bulundurulur.