SlideShare una empresa de Scribd logo
1 de 37
GOOGLE ARAMA
   MOTORUNDA
MATRİ SLERİ N ÖNEMİ

          A. Talha
           KABAKUŞ
       talha.kabakus
         @ibu.edu.tr
Ajanda
●
    Arama Motorları
●
    Beklentiler
●
    Arama Motoru Çeşitleri
●
    Arama Motorları Nasıl
    Çalışır?
●
    Google Arama Motoru
●
    PageRank Algoritması
●
    Karşılaşılan Sorunlar
●
    Olası Çözümler
Arama Motorları
Beklentiler
●
    Doğru sonuç
●
    H ız
●
    Detaylı Arama
       –   Zaman kısıtlaması
       –   Dil kısıtlaması
●
    Arama tavsiyeleri
       –   Bunu mu demek
            istemiştiniz?
Google vs. Yahoo
Arama Motoru
                 Çeş itleri
●
    Crawler tabanlı
    arama motorları
     –   Crawler / Spider
     –   Index
     –   Arama Motoru
          Yazılımları
●
    İnsan destekli
    arama motorları
Arama Motorları
   Nasıl Çalış ır?
Google Arama
                   Motoru
●
    Larry Page ve
    Sergey Brin
    tarafından
    geliştirilmiştir.
●
    Günlük 2 milyar
    arama
●
    En çok kullanılan
    arama motoru
●
    50 milyon değişken
PageRank
              Algoritması
●
    Çıkış noktası, Rus
    matematikçi Andrei
    Markov tarafından
    geliştirilen Markov
    Zincirlerine dayanır.
●
    Sayılabilir
    durumlar ve bu
    durumların
    birbirleriyle olan
Örnek 1
Yönlü Graf



                     Node



             Kenar
Rastgele Web Surf
                        Prensibi
●
    Algoritma rastgele
    web surf prensibini
    kullanır.
●
    2 temel varsayıma
    dayanır:
      –   Kullanıcının bir
           sonraki ziyaret
           edeceği web
           sayfası kendi
           üzerindeki
●
    Ağ içindeki n adet web sayfası
    için algoritma n x n'lik bir
    hiper matris oluşturur.
●
    Graf içindeki node'lar web
    sayfalarını, kenarlar ise web
    sayfalarından birbirine
    olan bağlantıları (linkleri)
    temsil eder.
●
    Çift yönlü kenarlar, web
    sayfalarından herbirinden
    diğerine birer bağlantı
    olduğunu gösterir.
●
    hij değeri i, j Є {1, 2, 3, ...,
    n} olmak üzere, j web
    sayfasından i web
    sayfasına tek geçişle
    (veya tek tıklamayla)
    geçiş yapabilme ihtimalini
    gösterir.
●
    j web sayfası üzerinde k
    adet bağlantı olduğunu
    varsayarsak
       –   j web sayfasından i
            web sayfasına
●
    Örnek 1 için kurulan ağ
    içindeki web sayfaları A=1,
    B=2, C=3, D=4, E=5 ve F=6
    olarak numaralandırılırsa
    bir sonraki muhtemel web
    sayfası ziyaret
    ihtimallerini gösteren H
    hipermatrisi aşağıdaki gibi
    elde edilir:
Dangling Node
●
    Kendi içerisinde başka
    bir web sayfasına
    bağlantı içermeyen web
    sayfaları graf
    içerisinde dangling node
    olarak adlandırılır.
●
    Rastgele web surf'ü
    sonlandıran
    node'lardır.
●
    H hipermatrisinde kendi
●
    pij notasyonu i adımla j
    web sayfasına ulaşma
    ihtimalini göstermek için
    kullanılmaktadır.
●



    ise i. Ihtimal dağ ıtım vektörü olarak
    adlandırılır.
●
    Başlangıç ihtimal vektörü
    ise bulunulan web sayfası
    için 1, diğer web sayfaları
    için 0 değerini taşıyan
    matrise denktir.
●
    Bu noktadan sonra
    aşağıdaki soruların akla
    gelmesi muhtemeldir:
      –   k adım (veya k
           tıklama)
           sonrasında
           oluşacak ihtimal
           dağıtım vektörü
           bulunabilir mi?
      –   Kullanıcının uzun
●
    Kullanıcının A web
    sayfasından rastgele
    surf'üne başladığı
    varsayılırsa başlangıç
    ihtimal vektörü

       olur.
●
    A web sayfası üzerinde B,
    C, D ve F web sayfalarına
    bağlantı barındırdığında bu
    sayfalara erişim ihtimali ¼
    olarak bulunur. E web
●
    Bu durumda aşağıdaki eşitlik
    elde edilebilir:




    Benzer şekilde pk =? Hpk-1
    yazılabilir mi?
İ kinci Hareket
                         Durumu
●
    Bunun için aynı örnek
    üzerinden 2. hareket (veya
    tıklama) sonucunda
    oluşacak duruma bakalım:
●
    İkinci hareket sonrasında
    kullanıcının herbir web
    sayfasına erişim ihtimali
    kullanıcının ilk adımda
    nasıl bir yol izleyeceğine
    bağlıdır.
●
    Kullanıcının ikinci hareket
    sonrasında;
●
    C web sayfasına bağlantı
    sadece A ve E web
    sayfalarından mümkündür.
    İlk hareket sonrasında A
    ve E web sayfalarında
    bulunma ihtimali
    olmadığından bu ihtimal de
    yoktur.
●
    Kullanıcının D web
    sayfasına ulaşması için A →
    C → D yolu ile 1/8 ihtimal
    veya A → B → D yolu ile
●
    Kullanıcının F web
    sayfasında olabilmesi A →
    B → F yolu ile mümkündür
    ve bu ihtimal
                       olarak
    bulunur.
●
    Örnek 1'deki graf dangling
    node içermediğinden ikinci
    adım sonrasında kullanıcı
    mutlaka bir web
    sayfasında bulunmalıdır.
    Bu durumda
●
    Sonuç olarak ikinci
    hareket sonrası ihtimal
    dağıtım vektörü şu şekilde
    olmaktadır:




●
    Yukarıdaki eşitliğe dikkat
    edilirse H hiper matrisinin
    ilk satırı ile bir önceki
    ihtimal dağıtım vektörünün
●
    Örnek 1 için ilk 20 ihtimal
    vektörü aşağıdaki gibi
    olmaktadır:




               Elde edilen bu ∏
               vektörüne sabit
               dağ ıtım vektörü denir ve
               uzun soluklu bir
               surf sonucunda
               kullanıcının ağ
Karş ılaş ılan Sorunlar
●   Dangling Problemi
        –   Ağ içerisinde başka
             hiçbir web
             sayfasına bağlantı
             bulundurmayan
             node bulunması
             durumunda
             gerçekleşir.
●   Tuzak Döngü Problemi (Trapping Loop
    Problem)
        –   Ağ içerisinde
Dangling
                       Problemi
 Örnek 2




Dikkat edilirse B ve F web sayfaları
arasındaki tek bağ lantı birbirleriyle
●
    Bu durumda H hipermatrisi
    aşağıdaki gibi elde edilir:




●
    Dikkat   edilirse, F  web
    sayfasını temsil eden son
    sutün, F web sayfası diğer
●
    Kullanıcı Örnek 1'deki A web
    sayfasından rastgele
    surf'üne başlarsa ilk 40
    ihtimal dağıtım vektörü
    aşağıdaki gibi olacaktır:




●
Tuzak Döngü
                        Problemi
                  (Trapping Loop
●
    Ağ içerisinde
                        Problem)
               iki web sayfası
    arasında oluşacak sonsuz
    döngü durumudur.
    Örnek 3
●
    Kullanıcı B web sayfasına
    ulaştıktan sonra takip
    edebieceği tek yol B ve F
    web sayfaları arasındaki
    döngüdür:

       B → F → B → F → B → …
●
    Bu durumda uzun zamanlı
    olarak ihtimal dağıtım
    vektörü
                  olarak
    bulunacaktır.
●
    Bu durumda yine ağ
Olası Çözümler
●
    Eğer ağımızda bahsedilen 2
    problem (dangling node ve
    tuzak döngü)
    bulunmuyorsa, ağ kararlı
    bir şekilde işleyecek ve
    sabit dağıtım vektörü doğru
    bir şekilde elde
    edilecektir.
●
    Gerçek dünyada çok sayıda
    dangling node'u temsil
    edecek web sayfaları
    bulunmaktadır:
●
    Kullanıcının dangling
    node'dan kurtulma
    ihtimalini diğer web
    sayfalarını ziyaret etme
    ihtimaline (n adet web
    sayfası için 1/n) eşit
    olarak kabul edilirse d
    dangling vektörü
    dangling'e sebep olan
    node 1, diğer node'lar 0
    olarak gösterilerek ifade
    edilir. Bu durumda Örnek 3
    için dangling vektörü
●
    Kısacası S hipermatrisi, H
    hipermatrisinde bulunan
    her 0 sutün vektörünün
                        sutün
    vektörü ile

    değiştirilmesiyle elde
    edilir. Örnek 3'deki ağ
    üzerinde 6 adet web
    sayfası (veya node)
    bulunduğundan dolayı, n = 6
    olacaktır. Bu durumda S
    hipermatrisi aşağıdaki gibi
●
    Bir diğer olası çözüm yolu
    ise  ağ  üzerinde   aramaya
    başlamadan önce dangling
    node'u   temsil   eden   web
    sayfalarının     ve   onları
    yönlendiren bağlantılarının
    tamamının              ağdan
    çıkartılmasıdır.
●
    Elde edilen S hipermatrisi
    her    ne   kadar   gözden
    geçirilmiş olsa da, yeniden
    dangling problemine sebep
●
    ∂, 0 ile 1 arasında “damping
    faktörü” adı verilen ve web
    sayfaları            üzerindeki
    linkleri takip ile bağımsız
    URL        adres      girilmesi
    arasındaki oranı temsil bir
    reel sayı olmak üzere Google
    matris      aşağıdaki   şekilde
    tanımlanmıştır:
Referanslar
[1] Lawrence Page, Sergey
Brin, Rajeev Motwani, Terry
Winograd, The PageRank
citation ranking: Bringing
order to the Web, Stanford
Technical report, 1999.

[2] Taher Haveliwala,
Sepandar Kamvar, The
second eigenvalue of the
Google matrix, Stanford
Technical report, June,
2003.

Más contenido relacionado

Destacado

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Destacado (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Google Arama Motorunda Matrislerin Önemi

  • 1. GOOGLE ARAMA MOTORUNDA MATRİ SLERİ N ÖNEMİ A. Talha KABAKUŞ talha.kabakus @ibu.edu.tr
  • 2. Ajanda ● Arama Motorları ● Beklentiler ● Arama Motoru Çeşitleri ● Arama Motorları Nasıl Çalışır? ● Google Arama Motoru ● PageRank Algoritması ● Karşılaşılan Sorunlar ● Olası Çözümler
  • 4. Beklentiler ● Doğru sonuç ● H ız ● Detaylı Arama – Zaman kısıtlaması – Dil kısıtlaması ● Arama tavsiyeleri – Bunu mu demek istemiştiniz?
  • 6. Arama Motoru Çeş itleri ● Crawler tabanlı arama motorları – Crawler / Spider – Index – Arama Motoru Yazılımları ● İnsan destekli arama motorları
  • 7. Arama Motorları Nasıl Çalış ır?
  • 8. Google Arama Motoru ● Larry Page ve Sergey Brin tarafından geliştirilmiştir. ● Günlük 2 milyar arama ● En çok kullanılan arama motoru ● 50 milyon değişken
  • 9. PageRank Algoritması ● Çıkış noktası, Rus matematikçi Andrei Markov tarafından geliştirilen Markov Zincirlerine dayanır. ● Sayılabilir durumlar ve bu durumların birbirleriyle olan
  • 10.
  • 11. Örnek 1 Yönlü Graf Node Kenar
  • 12. Rastgele Web Surf Prensibi ● Algoritma rastgele web surf prensibini kullanır. ● 2 temel varsayıma dayanır: – Kullanıcının bir sonraki ziyaret edeceği web sayfası kendi üzerindeki
  • 13. Ağ içindeki n adet web sayfası için algoritma n x n'lik bir hiper matris oluşturur. ● Graf içindeki node'lar web sayfalarını, kenarlar ise web sayfalarından birbirine olan bağlantıları (linkleri) temsil eder. ● Çift yönlü kenarlar, web sayfalarından herbirinden diğerine birer bağlantı olduğunu gösterir.
  • 14. hij değeri i, j Є {1, 2, 3, ..., n} olmak üzere, j web sayfasından i web sayfasına tek geçişle (veya tek tıklamayla) geçiş yapabilme ihtimalini gösterir. ● j web sayfası üzerinde k adet bağlantı olduğunu varsayarsak – j web sayfasından i web sayfasına
  • 15. Örnek 1 için kurulan ağ içindeki web sayfaları A=1, B=2, C=3, D=4, E=5 ve F=6 olarak numaralandırılırsa bir sonraki muhtemel web sayfası ziyaret ihtimallerini gösteren H hipermatrisi aşağıdaki gibi elde edilir:
  • 16. Dangling Node ● Kendi içerisinde başka bir web sayfasına bağlantı içermeyen web sayfaları graf içerisinde dangling node olarak adlandırılır. ● Rastgele web surf'ü sonlandıran node'lardır. ● H hipermatrisinde kendi
  • 17. pij notasyonu i adımla j web sayfasına ulaşma ihtimalini göstermek için kullanılmaktadır. ● ise i. Ihtimal dağ ıtım vektörü olarak adlandırılır. ● Başlangıç ihtimal vektörü ise bulunulan web sayfası için 1, diğer web sayfaları için 0 değerini taşıyan matrise denktir.
  • 18. Bu noktadan sonra aşağıdaki soruların akla gelmesi muhtemeldir: – k adım (veya k tıklama) sonrasında oluşacak ihtimal dağıtım vektörü bulunabilir mi? – Kullanıcının uzun
  • 19. Kullanıcının A web sayfasından rastgele surf'üne başladığı varsayılırsa başlangıç ihtimal vektörü olur. ● A web sayfası üzerinde B, C, D ve F web sayfalarına bağlantı barındırdığında bu sayfalara erişim ihtimali ¼ olarak bulunur. E web
  • 20. Bu durumda aşağıdaki eşitlik elde edilebilir: Benzer şekilde pk =? Hpk-1 yazılabilir mi?
  • 21. İ kinci Hareket Durumu ● Bunun için aynı örnek üzerinden 2. hareket (veya tıklama) sonucunda oluşacak duruma bakalım: ● İkinci hareket sonrasında kullanıcının herbir web sayfasına erişim ihtimali kullanıcının ilk adımda nasıl bir yol izleyeceğine bağlıdır. ● Kullanıcının ikinci hareket sonrasında;
  • 22. C web sayfasına bağlantı sadece A ve E web sayfalarından mümkündür. İlk hareket sonrasında A ve E web sayfalarında bulunma ihtimali olmadığından bu ihtimal de yoktur. ● Kullanıcının D web sayfasına ulaşması için A → C → D yolu ile 1/8 ihtimal veya A → B → D yolu ile
  • 23. Kullanıcının F web sayfasında olabilmesi A → B → F yolu ile mümkündür ve bu ihtimal olarak bulunur. ● Örnek 1'deki graf dangling node içermediğinden ikinci adım sonrasında kullanıcı mutlaka bir web sayfasında bulunmalıdır. Bu durumda
  • 24. Sonuç olarak ikinci hareket sonrası ihtimal dağıtım vektörü şu şekilde olmaktadır: ● Yukarıdaki eşitliğe dikkat edilirse H hiper matrisinin ilk satırı ile bir önceki ihtimal dağıtım vektörünün
  • 25. Örnek 1 için ilk 20 ihtimal vektörü aşağıdaki gibi olmaktadır: Elde edilen bu ∏ vektörüne sabit dağ ıtım vektörü denir ve uzun soluklu bir surf sonucunda kullanıcının ağ
  • 26. Karş ılaş ılan Sorunlar ● Dangling Problemi – Ağ içerisinde başka hiçbir web sayfasına bağlantı bulundurmayan node bulunması durumunda gerçekleşir. ● Tuzak Döngü Problemi (Trapping Loop Problem) – Ağ içerisinde
  • 27. Dangling Problemi Örnek 2 Dikkat edilirse B ve F web sayfaları arasındaki tek bağ lantı birbirleriyle
  • 28. Bu durumda H hipermatrisi aşağıdaki gibi elde edilir: ● Dikkat edilirse, F web sayfasını temsil eden son sutün, F web sayfası diğer
  • 29. Kullanıcı Örnek 1'deki A web sayfasından rastgele surf'üne başlarsa ilk 40 ihtimal dağıtım vektörü aşağıdaki gibi olacaktır: ●
  • 30. Tuzak Döngü Problemi (Trapping Loop ● Ağ içerisinde Problem) iki web sayfası arasında oluşacak sonsuz döngü durumudur. Örnek 3
  • 31. Kullanıcı B web sayfasına ulaştıktan sonra takip edebieceği tek yol B ve F web sayfaları arasındaki döngüdür: B → F → B → F → B → … ● Bu durumda uzun zamanlı olarak ihtimal dağıtım vektörü olarak bulunacaktır. ● Bu durumda yine ağ
  • 32. Olası Çözümler ● Eğer ağımızda bahsedilen 2 problem (dangling node ve tuzak döngü) bulunmuyorsa, ağ kararlı bir şekilde işleyecek ve sabit dağıtım vektörü doğru bir şekilde elde edilecektir. ● Gerçek dünyada çok sayıda dangling node'u temsil edecek web sayfaları bulunmaktadır:
  • 33. Kullanıcının dangling node'dan kurtulma ihtimalini diğer web sayfalarını ziyaret etme ihtimaline (n adet web sayfası için 1/n) eşit olarak kabul edilirse d dangling vektörü dangling'e sebep olan node 1, diğer node'lar 0 olarak gösterilerek ifade edilir. Bu durumda Örnek 3 için dangling vektörü
  • 34. Kısacası S hipermatrisi, H hipermatrisinde bulunan her 0 sutün vektörünün sutün vektörü ile değiştirilmesiyle elde edilir. Örnek 3'deki ağ üzerinde 6 adet web sayfası (veya node) bulunduğundan dolayı, n = 6 olacaktır. Bu durumda S hipermatrisi aşağıdaki gibi
  • 35. Bir diğer olası çözüm yolu ise ağ üzerinde aramaya başlamadan önce dangling node'u temsil eden web sayfalarının ve onları yönlendiren bağlantılarının tamamının ağdan çıkartılmasıdır. ● Elde edilen S hipermatrisi her ne kadar gözden geçirilmiş olsa da, yeniden dangling problemine sebep
  • 36. ∂, 0 ile 1 arasında “damping faktörü” adı verilen ve web sayfaları üzerindeki linkleri takip ile bağımsız URL adres girilmesi arasındaki oranı temsil bir reel sayı olmak üzere Google matris aşağıdaki şekilde tanımlanmıştır:
  • 37. Referanslar [1] Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, The PageRank citation ranking: Bringing order to the Web, Stanford Technical report, 1999. [2] Taher Haveliwala, Sepandar Kamvar, The second eigenvalue of the Google matrix, Stanford Technical report, June, 2003.