Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Web Arsivleme Yaklaşimlari ve Orneklerle Web Arsivleri

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
Khajuraho
Khajuraho
Cargando en…3
×

Eche un vistazo a continuación

1 de 48 Anuncio

Más Contenido Relacionado

Anuncio

Más reciente (18)

Web Arsivleme Yaklaşimlari ve Orneklerle Web Arsivleri

 1. 1. Web Arşivleme Yaklaşımları ve Örneklerle Web Arşivleri Esin Sultan OĞUZ Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü ÜNAK’06 Bilimsel İletişim ve Bilgi Yönetimi Ankara, 12-14 Ekim 2006
 2. 2. Ana Hatlar... <ul><li>Giriş </li></ul><ul><ul><li>Web Büyüklüğüne Yönelik Tahminler </li></ul></ul><ul><ul><li>Web Neden Arşivlenmeli? </li></ul></ul><ul><ul><li>Web’de Neler Arşivlenmeli? </li></ul></ul><ul><li>Belli başlı web arşivleme yaklaşımları </li></ul><ul><ul><li>Harmanlama (harvesting) Yaklaşımı </li></ul></ul><ul><ul><ul><li>The Internet Archive </li></ul></ul></ul><ul><ul><li>Seçimli (selective) Yaklaşım </li></ul></ul><ul><ul><ul><li>PANDORA (Avustralya) </li></ul></ul></ul><ul><ul><li>Tematik Yaklaşım </li></ul></ul><ul><ul><ul><li>MINERVA (A.B.D.) </li></ul></ul></ul><ul><ul><li>Derleme (deposit) Yaklaşımı </li></ul></ul><ul><ul><ul><li>Die Deutsche Bibliothek (Almanya) </li></ul></ul></ul><ul><ul><li>Karma (combined) Yaklaşım </li></ul></ul><ul><ul><ul><li>Bibliothèque nationale de France (Fransa) </li></ul></ul></ul><ul><li>Uluslararası Web Arşivleme Projeleri </li></ul><ul><ul><li>IIPC </li></ul></ul><ul><ul><li>NEDLIB </li></ul></ul><ul><ul><li>UK Web Archiving Consortium </li></ul></ul><ul><ul><li>Nordic Web Archives </li></ul></ul><ul><li>Web Arşivlemeye Yönelik Sorunlar </li></ul><ul><li>Sonuç </li></ul>
 3. 3. Web Büyüklüğüne Yönelik Tahminler... <ul><li>İndekslenebilir Web (yüzeysel web) </li></ul><ul><ul><li>1997 yılında 200 milyon sayfa </li></ul></ul><ul><ul><li>2004 yılında Google: 8 milyar sayfa </li></ul></ul><ul><ul><li>2005 yılında (Ocak ayı sonu) 11,5 milyar sayfa </li></ul></ul><ul><li>Derin Web: 7,5 petabyte </li></ul><ul><ul><li>Yüzeysel web’den 550 kat büyük </li></ul></ul>
 4. 4. Web Büyüklüğüne Yönelik Tahminler... <ul><li>OCLC Web Tanımlama Çalışması : </li></ul><ul><li>1998 – 2002 yılları arası büyüme oranları </li></ul><ul><ul><li>Erişimi Kısıtlı Siteler: % 690 </li></ul></ul><ul><ul><li>Serbest Erişimli Siteler: % 111 </li></ul></ul><ul><li>http://wcp.oclc.org </li></ul>Erişimi Kısıtlı 3 080 000 2 942 000 1 457 000 2 489 000 1 494 000 315 000 2002 2000 1998 Serbest Erişimli
 5. 5. Web Neden Arşivlenmeli? <ul><li>Kültürel miras... </li></ul><ul><ul><li>2001 yılında üretilen yeni bilgilerin %93’ü anadan doğma sayısal </li></ul></ul><ul><li>A.B. 7. Çerçeve Programı (2007-2013) </li></ul><ul><li>Avrupa Komisyonu (24 Ağustos 2006) </li></ul>
 6. 6. Web Neden Arşivlenmeli? <ul><li>Kısa ömürlü oluşu (ortalama 44 gün) </li></ul><ul><ul><li>1998’de web sitelerinin %44’üne ertesi yıl erişim sağlanamamış </li></ul></ul><ul><ul><li>DLIB Magazine araştırması </li></ul></ul><ul><ul><ul><li>URL adreslerinin kalıcılığı (1999-2004) </li></ul></ul></ul><ul><ul><ul><li>Makalelerin yarısına erişim sağlanamamıştır </li></ul></ul></ul>
 7. 7. Web’de Neler Arşivlenmeli? <ul><li>Geleneksel kaynak seçimi </li></ul><ul><ul><li>koleksiyonun bütünüyle uyum </li></ul></ul><ul><li>Elektronik kaynakların seçimi </li></ul><ul><ul><li>kaynağın formatı </li></ul></ul><ul><ul><li>formata yönelik standartlar </li></ul></ul><ul><li>İçerik + teknoloji </li></ul><ul><li>her şeyi depolamak mümkün mü? </li></ul>
 8. 8. Web Arşivleme Yaklaşımları <ul><li>Web arşivlemede temel yaklaşımlar... </li></ul><ul><li>Harmanlama (harvesting) Yaklaşımı </li></ul><ul><li>Seçimli (selective) Yaklaşım </li></ul><ul><li>Tematik Yaklaşım </li></ul><ul><li>Derleme (deposit) Yaklaşım </li></ul><ul><li>Karma (combined) Yaklaşım </li></ul>
 9. 9. ÖRNEKLER....
 10. 10. Web Arşivleme Yaklaşımları <ul><li>Harmanlama (Harvesting) Yaklaşımı </li></ul><ul><ul><li>harvester: Web dokümanlarını toplamaya yarayan otomatikleştirilmiş araç </li></ul></ul><ul><ul><ul><li>kendisine verilen bir dizi URL adresini bulur getirir, belgeler içindeki hypertext bağlantıları denetler ve ikinci harmanlama aşaması için işleme koyar </li></ul></ul></ul><ul><ul><ul><li>bu işlem tanımlanmış tüm belgeler toplanana kadar devam eder </li></ul></ul></ul>
 11. 11. <ul><li>Harmanlama (Harvesting) Yaklaşımı </li></ul><ul><ul><li>Yaygın kullanım alanları </li></ul></ul><ul><ul><ul><li>Arama Motorları </li></ul></ul></ul><ul><ul><ul><li>Spam Mail (yığın ileti) </li></ul></ul></ul><ul><ul><li>Internet Archive ve Kulturarw3 </li></ul></ul><ul><ul><ul><li>Kulturarw3: İsveç (.se) alan adına sahip siteleri toplamak üzere programlanmıştır </li></ul></ul></ul><ul><ul><ul><li>Diğer ülkeler: Finlandiya, İzlanda, Norveç ve Avusturya </li></ul></ul></ul>Web Arşivleme Yaklaşımları
 12. 12. <ul><li>Harmanlama (Harvesting) Yaklaşımı </li></ul><ul><ul><li>Avantajı </li></ul></ul><ul><ul><ul><li>belirli zaman aralıklarıyla web siteleri otomatik olarak toplanır </li></ul></ul></ul><ul><ul><ul><li>insan gücü en az oranda kullanılır </li></ul></ul></ul><ul><ul><ul><li>her bir parça için maliyet azdır </li></ul></ul></ul><ul><ul><li>Dezavantajı </li></ul></ul><ul><ul><ul><li>her şey toplanamıyor... </li></ul></ul></ul><ul><ul><ul><ul><li>veritabanları, dinamik belgeler, diğer alan adlarındaki belgeler </li></ul></ul></ul></ul><ul><ul><ul><ul><li>derin web </li></ul></ul></ul></ul><ul><ul><ul><ul><li>İmaj ve ses dosyaları için indeksleme sorunu </li></ul></ul></ul></ul>Web Arşivleme Yaklaşımları
 13. 13. The Internet Archive (İnternet Arşivi) <ul><li>İlk sayısal koruma çalışmasıdır </li></ul><ul><li>Alexa / Merkezi A.B.D </li></ul><ul><li>1996’da başlamış, 2001’de koleksiyonu kullanıma açılmıştır </li></ul><ul><ul><li>The Wayback Machine </li></ul></ul><ul><li>koleksiyon büyüklüğü 55 milyar sayfa (2 petabyte) </li></ul><ul><li>her geçen ay 20 terabyte büyüme hacmi </li></ul><ul><li>harmanlama (harvesting) yaklaşımını benimsemiştir </li></ul><ul><li>çeşitli işbirliği çalışmaları vardır </li></ul><ul><ul><li>Kongre Kütüphanesi: International Children’s Digital Library </li></ul></ul><ul><ul><li>İskenderiye Kütüphanesi </li></ul></ul>
 14. 14. <ul><li>Zayıf Yanları.... </li></ul><ul><li>İnternet’in ilk yıllarına yönelik toplama yapılamamıştır </li></ul><ul><ul><li>Usenet ve FTP arşivleri </li></ul></ul><ul><li>Şifre korumalı ve IP tanımlı web siteleri </li></ul><ul><li>Sahipsiz web siteleri </li></ul><ul><ul><li>Diğer web siteleri ile bağlantısı olmayan web siteleri </li></ul></ul><ul><li>Telif hakları </li></ul><ul><ul><li>örümceklerin siteye girmesini engelleyen filtreler </li></ul></ul><ul><ul><li>CNN web sitesi </li></ul></ul>The Internet Archive (İnternet Arşivi)
 15. 15. <ul><li>Diğer arşivleme çalışmalarından farkları... </li></ul><ul><li>İndeksleme ve kataloglama çalışması yapılmamaktadır </li></ul><ul><li>Tek erişim noktası URL adresleridir </li></ul><ul><li>Koleksiyondaki materyaller için bibliyografik tanımlama yoktur </li></ul><ul><li>Koleksiyon geliştirme politikası yoktur </li></ul><ul><li>Uygunsuz içeriği nedeniyle yasaklanan sitelere yönelik denetim söz konusu değildir </li></ul>The Internet Archive (İnternet Arşivi)
 16. 19. <ul><li>Seçimli (Selective) Yaklaşım </li></ul><ul><ul><li>Kaynakların önemi, kalitesi, ilgili web siteleri ile bağlantısı </li></ul></ul><ul><ul><li>National Library of Australia: Selection Guidelines </li></ul></ul><ul><ul><li>Toplama ve aynalama yöntemi ile web siteleri toplanır </li></ul></ul><ul><ul><li>Site sahipleri ile kullanım hakları konusunda görüşülür </li></ul></ul><ul><ul><li>Avustralya PANDORA projesi ile öncüdür </li></ul></ul><ul><ul><ul><li>A.B.D. İngiltere, Kanada, Japonya </li></ul></ul></ul>Web Arşivleme Yaklaşımları
 17. 20. Web Arşivleme Yaklaşımları <ul><li>Seçimli (Selective) Yaklaşım </li></ul><ul><ul><li>Avantajları </li></ul></ul><ul><ul><ul><li>belirli bir alan adına sahip web siteleri içinde seçim kütüphaneci tarafından yapılır </li></ul></ul></ul><ul><ul><ul><li>arşivdeki her bir parçanın kalitesi onaylanmıştır </li></ul></ul></ul><ul><ul><ul><li>tüm içeriğin kullanılmasına olanak sağlar </li></ul></ul></ul><ul><ul><ul><li>ulusal bibliyografyanın parçası olma imkanı doğar </li></ul></ul></ul><ul><ul><ul><li>belirlenen konuda içerik toplama tam olarak gerçekleşir </li></ul></ul></ul>
 18. 21. PANDORA <ul><li>P reserving and A ccessing N etworked D ocumentary R esources of A ustralia </li></ul><ul><li>1996 yılında başlamıştır </li></ul><ul><li>Avusturalya Milli Kütüphanesi yürütmektedir </li></ul><ul><li>Kapsamında... </li></ul><ul><ul><li>E-dergiler, hükümet yayınları ve web siteleri </li></ul></ul><ul><li>seçilmiş elektronik kaynaklar konu başlıkları altında arşivlenmektedir </li></ul><ul><li>çeşitli araştırmalar... </li></ul><ul><ul><li>kaynakların seçimi, politikalar, uzun süreli erişim, koruma, teknolojik göç ve risk yönetimi </li></ul></ul>
 19. 22. PANDORA <ul><li>PANDORA İstatistikleri </li></ul>26 Ağustos 2006 İstatistikleri Şubat 2006 Mart 2006 1 Aylık Fark Toplam Arşiv Başlığı 12,716 12,423 293 Toplam Arşivlenmiş Örnek Sayısı 25,535 24,932 603 Toplam Dosya Sayısı 302,604,154 32,108,057 496,097 Toplam Gigabyte 1233,88 1210,73 23
 20. 26. Web Arşivleme Yaklaşımları <ul><li>Tematik Yaklaşım </li></ul><ul><ul><li>seçilmiş URL adreslerinin arşivlenmesine dayalıdır </li></ul></ul><ul><ul><li>bu URL adresleri çekirdek koleksiyondur </li></ul></ul><ul><ul><li>web örümceği çekirdek koleksiyondaki bağlantıları izler </li></ul></ul><ul><ul><li>ilgili konudaki web siteleri belirli aralıklarla toplanır </li></ul></ul><ul><ul><li>sürekliliği çekirdek koleksiyonun web’deki sürekliliğine bağlıdır </li></ul></ul>
 21. 27. <ul><li>MINERVA: Amerikan Kongre Kütüphanesi </li></ul><ul><ul><li>Seçimli yaklaşım </li></ul></ul><ul><li>MINERVA’ya bağlı iki tematik arşiv </li></ul><ul><ul><li>11 Eylül Web Arşivi (The September 11 Web Archive) </li></ul></ul><ul><ul><li>2002 Seçimleri (Election 2002) </li></ul></ul><ul><ul><ul><li>hem metin hem görüntü tabanlı </li></ul></ul></ul><ul><ul><ul><li>İnternet Arşivi (the Internet Archive) örümcekleri </li></ul></ul></ul><ul><ul><ul><ul><li>11 Eylül Web Arşivi: her gün </li></ul></ul></ul></ul><ul><ul><ul><ul><li>2002 Seçimleri: belirli aralıklarla </li></ul></ul></ul></ul><ul><ul><li>Diğer tematik arşivler </li></ul></ul><ul><ul><ul><li>2002 Kış Olimpiyatları, Irak savaşı, 2004 Seçimleri </li></ul></ul></ul>MINERVA
 22. 28. MINERVA <ul><li>İstatistikler </li></ul>11 Eylül Arşivi 2002 Seçimleri Arşivi URL Sayıları 30,000 + 3,000 + Toplanma ( Crawl ) Tarihleri 11 Eylül 2001 1 Aralık 200 1 1 Ağustos 2002 30 Kasım 2002 Tekil URL 332,000 82,000 Koleksiyon B üyüklüğü 5 Terabyte 1 Terabyte
 23. 31. Web Arşivleme Yaklaşımları <ul><li>Derleme (Deposit) Yaklaşımı </li></ul><ul><ul><li>web sitelerinin arşivlenmesi kanunlarla desteklenmektedir </li></ul></ul><ul><ul><li>milli kütüphanelerin misyonu ön plana çıkar </li></ul></ul><ul><ul><li>geleneksel derleme yaklaşımına benzer </li></ul></ul><ul><ul><ul><li>web sitesi sahibi ya da sayısal bilgi üreticileri web sitelerinin içeriğini, görüntülerini kopyalayarak arşive gönderir </li></ul></ul></ul><ul><ul><li>Almanya, Hollanda... </li></ul></ul>
 24. 32. <ul><li>Archivserver (the Archive Server) </li></ul><ul><li>Kapsamı: </li></ul><ul><ul><li>Yayıncıların ve üreticilerin çevrimiçi yayınları (Eylül 2001-) </li></ul></ul><ul><ul><li>Elektronik tezler ve doktora sonrası çalışmalar (1998-) </li></ul></ul><ul><ul><li>1933-1945 arası yayımlanmış Almanca dergiler </li></ul></ul><ul><ul><li>Alman iş yasasının yasal elektronik kopyaları (2000) </li></ul></ul><ul><ul><li>Nazi rejimi süresince yayımlanmış Yahudi dergileri (2005) </li></ul></ul>Die Deutsche Bibliothek
 25. 33. <ul><li>Archivserver (the Archive Server) </li></ul><ul><li>Pilot Proje (Haziran 2000) </li></ul><ul><ul><li>Almanya Milli Kütüphanesi ve Springer-Verlag </li></ul></ul><ul><ul><li>Elektronik yayınları uzun süreli koruma </li></ul></ul><ul><ul><li>Elektronik Derleme Kütüphanesi Yasası </li></ul></ul><ul><ul><li>418 elektronik yayın ve 1300’den fazla elektronik monograf Almanya Milli Kütüphanesi koleksiyonuna transfer edilerek ve arşivlenmiştir. (Aralık 2003) </li></ul></ul>Die Deutsche Bibliothek
 26. 35. Web Arşivleme Yaklaşımları <ul><li>Karma (Combined) Yaklaşım </li></ul><ul><ul><li>Mevcut yaklaşımların yetersiz kaldığı düşüncesi üzerine geliştirilmiştir </li></ul></ul><ul><ul><li>Birden fazla yaklaşımın bir arada kullanılması </li></ul></ul><ul><ul><li>Fransa Milli Kütüphanesi </li></ul></ul><ul><ul><li>Bibliothèque nationale de France (http://www.bnf.fr) </li></ul></ul>
 27. 36. Bibliothèque nationale de France <ul><li>GALLICA </li></ul><ul><ul><li>1997 yılından itibaren hizmet vermekte </li></ul></ul><ul><ul><li>Ansiklopedik Sayısal Kütüphane </li></ul></ul><ul><ul><ul><li>kitaplar, dergiler, gazeteler </li></ul></ul></ul><ul><ul><ul><li>haritalar, fotoğraflar </li></ul></ul></ul><ul><ul><ul><li>ses kayıtları </li></ul></ul></ul><ul><ul><li>90.000 sayısallaştırılmış metin </li></ul></ul><ul><ul><li>80.000 görüntü dosyası </li></ul></ul><ul><ul><li>500 (yaklaşık 30 saat) ses kaydı </li></ul></ul>
 28. 37. Bibliothèque nationale de France <ul><li>GALLICA </li></ul><ul><ul><li>Nadir bulunan, baskı dışı, ulaşması zor olan kaynaklara ücretsiz erişim sağlıyor </li></ul></ul><ul><ul><li>Ulusal ölçekli işbirliklerinden yararlanılıyor </li></ul></ul><ul><ul><ul><li>Fransa Ulusal Dil Enstitüsü (Institut National de la Langue Française / INALF) </li></ul></ul></ul><ul><ul><ul><li>Yayıncılar: Bibliopolis,Acamedia, Honoré Champion </li></ul></ul></ul><ul><ul><li>Koleksiyona erişim </li></ul></ul><ul><ul><ul><li>Yazar,konu, eseradı ve anahtar sözcük </li></ul></ul></ul><ul><ul><ul><li>kronolojik </li></ul></ul></ul>
 29. 40. Uluslararası Web Arşivleme Girişimleri <ul><li>IIPC </li></ul><ul><li>NEDLIB </li></ul><ul><li>UK Web Archiving Consortium (UKWAC) </li></ul><ul><li>Nordic Web Archive (NWA) </li></ul>
 30. 41. Uluslararası Web Arşivleme Projeleri <ul><li>IIPC </li></ul><ul><li>(International Internet Preservation Consortium) </li></ul><ul><ul><li>2003 yılında oluşturulmuştur </li></ul></ul><ul><ul><li>Avustralya, Kanada, Danimarka, Finlandiya, Fransa, İzlanda, İtalya, Norveç, İsveç, A.B.D., İngiltere, İnternet Arşivi </li></ul></ul><ul><ul><li>Çalışma grupları... </li></ul></ul><ul><ul><li>Hedefleri... </li></ul></ul><ul><ul><ul><li>Internet ortamındaki bilgileri dünya çapında arşivlemek, korumak ve erişimini sağlamak </li></ul></ul></ul><ul><ul><ul><li>Gerekli araçları, teknikleri ve standartları geliştirmek </li></ul></ul></ul><ul><ul><ul><li>Milli Kütüphaneleri web arşivleme konusunda teşfik etmek </li></ul></ul></ul>
 31. 42. Uluslararası Web Arşivleme Projeleri <ul><li>NEDLIB </li></ul><ul><li>(Networked European Deposit Library Project) </li></ul><ul><ul><li>Avrupa Komisyonu Telematik Uygulamalar Prog. desteğinde.. </li></ul></ul><ul><ul><li>Hollanda, Fransa, Norveç, Finlandiya, Almanya, Portekiz, İsviçre, İtalya </li></ul></ul><ul><ul><li>Kluwer Academic, Elsevier Sicence, Springer-Verlag </li></ul></ul><ul><ul><li>Projenin temel amacı </li></ul></ul><ul><ul><li>Avrupa milli kütüphanelerinin elektronik yayınlarının yaşatımında ve yönetiminde ortak hareket etmeleri... </li></ul></ul>
 32. 43. Uluslararası Web Arşivleme Projeleri <ul><li>UK Web Archiving Consortium </li></ul><ul><ul><li>6 kuruluş biraraya gelmiştir </li></ul></ul><ul><ul><li>The British Library, Joint Information Systems Committee of the Higher and Further Education Councils (JISC), The National Archives, The National Library of Wales, The National Library of Scotland and the Wellcome Trust </li></ul></ul><ul><ul><li>Her kuruluş kendi alanıyla ilgili web sitelerini toplar </li></ul></ul><ul><ul><li>Seçimli yaklaşımla seçilen web siteleri hak sahipleriyle yapılan anlaşmalarla arşive dahil edilir </li></ul></ul><ul><ul><li>kurulum, yazılım, donanım ve yaşatım masrafları üyeler arasında paylaşılır </li></ul></ul><ul><ul><li>2 yıl içinde 6000 web sitesi toplanmış ve arşivlenmiştir. </li></ul></ul>
 33. 44. Uluslararası Web Arşivleme Projeleri <ul><li>Nordic Web Archive </li></ul><ul><ul><li>Danimarka, İzlanda, Finlandiya, Norveç, İsveç </li></ul></ul><ul><ul><li>Katılımcı ülkelerin içerikleri NWA merkezine transfer edilir </li></ul></ul><ul><ul><li>Norveç Milli Kütüphanesi yönetiminde </li></ul></ul>
 34. 45. Web Arşivlemeyle İlgili Sorunlar <ul><li>Teknik </li></ul><ul><ul><li>web büyüklüğü </li></ul></ul><ul><ul><li>web’in dinamik yapısı </li></ul></ul><ul><li>Yasal </li></ul><ul><ul><li>telif hakları </li></ul></ul><ul><ul><li>güvenilirlik </li></ul></ul><ul><li>Örgütsel </li></ul><ul><ul><li>standartlar </li></ul></ul><ul><ul><li>politikalar </li></ul></ul>
 35. 46. Çözümler... <ul><li>Uzun Süreli Koruma </li></ul><ul><li>Elektronik bilginin üretim aşamasından itibaren.... </li></ul><ul><li>Sorunlar ortaksa çözüm yolları da ortaklaşa aranmalıdır </li></ul><ul><li>İşbirlikleri... </li></ul>
 36. 47. SONUÇ <ul><li>Konuya dikkati çekmek </li></ul><ul><li>Milli Kütüphane misyonu </li></ul><ul><li>Yasal sürecin başlatılması </li></ul><ul><li>Altyapı çalışmalarının desteklenmesi </li></ul><ul><li>Kurumlar arası işbirlikleri </li></ul><ul><li>Yayıncılarla işbirliği </li></ul><ul><li>Pilot projeler </li></ul><ul><li>Uluslararası projelere dahil olma </li></ul>
 37. 48. Teşekkürler ... Esin Sultan OĞUZ esinsultan@hacettepe.edu.tr http://yunus.hacettepe.edu.tr/~esinsultan ÜNAK’06 Bilimsel İletişim ve Bilgi Yönetimi Ankara, 12-14 Ekim 2006

Notas del editor

 • Arşivlenmiş örnek sayısı:

×