4. Yazarlar
Fei Sun
Dandan Song
Lejian Liao
School of Computer Science
Beijing Institute of Technology
Detaylar
SIGIR 2011
Web Sayfası: http://disnet.cs.bit.edu.cn/
Uygulama Kodları: https://github.com/FeiSun/ContentExtraction
Veri Seti: CETD Dataset
7. Web sayfalarında asıl içeriğin dışında kalan,
Navigasyon
Banner
Reklam görüntüleri
Arama motorlarının verimliliği açısından
önemli bir handikaptır.
Sitedeki anlamlı esas içeriği yakalamak için
yok sayılması veya yok edilmesi
gerekmektedir.
8.
9. i web sayfasındaki bir tagdır ().
Ci: i tagı içindeki karakter adedi
Ti: i tagı içindeki tag adedi
TDi: i tagının text yoğunluğu
Ti: 0 olduğunda 1 ile değiştirilir.
DOM Tree de bulunan script, comment, style vb.
taglar kaldırılır veya yok sayılır.
10.
11.
12.
13. LCi: i tagı linklerin içindeki karakter adedi
¬LCi: i tagı içindeki (link olmayan) karakter
adedi
LTi: i tagı içindeki link tagı adedi
LCb: <body> tagı içindeki link tagı adedi
Cb: <body> tagı içindeki karakter adedi
CTDi: i tagının composite text yoğunluğu
16. Bazı taglarda (haber başlığı, özeti, tarih bilgisi,
referanslar vb.) düşük metin yoğunluğu olabilir.
Aksine bazı gürültü taglarında (telif hakkı veya
yasal uyarı metinleri) da yüksek metin yoğunluğu
olabilir.
17. En basit durumda içerik sadece bir node
içerisinde olabilir. Bu durumda text
yoğunluğu sadece bir tagın maximum çıkar ve
burası içerik olarak belirlenir.
Fakat bir çok sitede içerik bir node ile sınırlı
değildir. Bunları kapsayan node göz önüne
alınmalıdır.
Başlangıç için <body> tagının text yoğunluğu
baz alınır
Diğer her node adımda maximum text
yoğunluğu olan tag eşik olarak tutulur.
20. Data Set
CleanEval : Temizlik için özel hazırlanmış veri
setidir. İngilizce ve Çince versiyonu vardır. Bu
uygulamada sadece İngilizce versiyonu
kullanılmıştır.
CETD : (1) The Big 5 : Ars Technica, BBC, Yahoo!,
New York Times, Wikipedia, and (2) the Chaos
data set chosen randomly from Google News and
the best-known blog platforms such as WordPress
and Blogger.
Tiny
RapidXML