Információmegosztás és prezentáció a világhálón budai lívia
Digitális bölcsészet Dr. Kalcsó Gyula blogja
1. Dr. Kalcsó Gyula blogja
Készítette: Kiss Ágnes
Magyartanár-pedagógiatanár
2. EKF Magyar Nyelvészeti Tanszék oktatója
Magyar Antikvakorpusz szerkesztője
(A korai középmagyar nyomtatott írásbeliség korpusza (1527–
1576) adatbázis)
Fontosabb tanulmányok:
Informatikus-könyvtáros szak
Magyar nyelv és irodalom
3. Első bejegyzés: 2011. július 30.
Utolsó bejegyzés: 2011. december 12.
Nem ismeretterjesztő, de tudományos
oldal: http://digitalisbolcseszet.blog.hu/
Felépítése:
Regisztrációs és beléptető menüpont
Bejegyzése archívuma – hónapos felosztásban
Témák (címkézések)
Kereső
Legújabb hozzászólások
Ajánló (Pl. angol nyelvű bevezető könyv)
Feedek (RSS)
4. Nem ismeretterjesztő, de tudományos oldal.
„A munkám során összegyűjtött tapasztalatok-
ról, a szakirodalomról, webes helyekről, a
digitális bölcsészet híreiről, eseményeiről,
eszközökről, projektekről és még sok minden
másról lesz szó.”
Ok: Még nincs a DH-t átfogó internetes platform!
5.
6. Nem találunk szavakat Digitalizáljuk a Himnuszt!
Kódból kimenet kódolási Digitális bölcsészet nálunk és más
eljárások nemzeteknél
Digitális kiadások: autopszia és Különös betűk a képernyőn (a
digitális archiválás böngészőben)
TEI és Drupal Könyvajánló
Kód és kép összekapcsolása Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása 2.
A Digitális Kultúra és Elméletek
Régi szövegek gépi elemzése Kutatócsoport rendezvénye a
Válságban a TEI konzorcium? tudomány napja alkalmából
Különös betűk a képernyőn Ingyenes online NLP-kurzus a
Stanfordon
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
7. Varjú Zoltán szerint nem külön diszciplína, csak metodológia
(módszertan).
ThatCamp-konferencián elfogadott nemzetközi kiáltvány szerint:
"transzdiszciplína", amely "magába foglalja mindazokat a módszereket,
rendszereket és heurisztikus szemléletmódokat melyek a bölcsészet- és
társadalomtudományokban fellelhető digitális dolgokhoz köthetőek".
Hagyományos bölcsészet és technika találkozása.
Magyar nyelven jóformán teljesen hiányoznak a
bevezető, alapozó könyvek.
Korpusznyelvészet, számítógépes nyelvészet az egyik területe
▪ Korpusz: egy adott nyelv adott időpontban
használt változatára vonatkozó szövegek összessége
8.
9. „mindazon paradigmákra, képességekre és tudásra
támaszkodik, melyek ezen tudományterületeket
(bölcsészet, társadalomtudományok) jellemzik,
miközben mozgósítja a digitális technológia által
elérhetővé vált eszközöket és egyedi szemléletmódot.”
A terület képviselői az adatokhoz és metaadatok-
hoz való nyílt hozzáférést kívánják.
11. A DH „segíthet a közgazdászoknak jobban megérteni a gazdasági
folyamatokat, ha a régebbi korokra is adatokat tud felmutatni, a turizmusnak
nagy segítség lehet, ha geográfiai adatokkal felvértezve mutathatja be hazánk
tájait az érdeklődőknek. Határainkon túl élő nemzettársaink digitálisan is
hozzáférhetnek kulturális örökségükhöz, ezzel erősíthetjük köztük és az
anyaország közötti kapcsolatot, továbbá a kül- és belföldi kutatók könnyebben
kutathatják, mennyiben kapcsolódik örökségünk a világ eseményeihez és
mennyiben tér el az általános tendenciáktól. A standard nyelvi eszközök a
nyelvtanulásban is segíthetnek, de a tartalomszolgáltatók is profitálhatnak
alkalmazásukból. A nyílt kormányzati adatok (ha lesznek) feldolgozásához és
megértéséhez szükségünk van újságírókra, akik képesek kezelni az új
technológiákat (ez az ún adatújságírás vagy data journalism) és gyakorolni a
negyedik hatalmi ág szerepét, ami egy működő demokráciában
elengedhetetlen.” Forrás: Számítógépes nyelvészet
12. Nem találunk szavakat Digitális bölcsészet nálunk és más
nemzeteknél
Kódból kimenet kódolási
eljárások Különös betűk a képernyőn (a
böngészőben)
Digitális kiadások: autopszia és
digitális archiválás Könyvajánló
TEI és Drupal Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása
A Digitális Kultúra és Elméletek
Kód és kép összekapcsolása 2. Kutatócsoport rendezvénye a
Régi szövegek gépi elemzése tudomány napja alkalmából
Válságban a TEI konzorcium? Ingyenes online NLP-kurzus a
Stanfordon
Különös betűk a képernyőn
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
Digitalizáljuk a Himnuszt!
13. Az autopszia mellett szükség van az anyagok digitális változatára is (pl.
távolság miatt)
Négy követelménynek kell eleget tennie a digitális változatnak:
Először is: hozzáférhető legyen az interneten.
Másodszor: tanulmányozható legyen jó minőségű fotón.
Harmadszor: minél teljesebb körű keresést lehessen végezni a szövegben
(vagy akár a szövegen kívüli dokumentumegységekben is).
Negyedszer: hasznos, ha valamilyen formában le is menthetjük a saját
gépünkre.
14. Ilyet még nem lehet találni!
Online dokumentumok (MEK):
• egy irodalmi mű valamilyen szövegváltozatát
valamilyen egyszerű szövegformátumban (TXT, RTF)
teszik közzé (esetleg igénytelen kiadás, tehát a
filológiai hitelesség megkérdőjeleződése) MEK ma
inkább pdf (kép-OCR EMSzT), doc formátum; az 1. és
a 4. kritérium érvényesül!
15. Nem találunk szavakat Digitális bölcsészet nálunk és más
nemzeteknél
Kódból kimenet kódolási
eljárások Különös betűk a képernyőn (a
böngészőben)
Digitális kiadások: autopszia és
digitális archiválás Könyvajánló
TEI és Drupal Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása
A Digitális Kultúra és Elméletek
Kód és kép összekapcsolása 2. Kutatócsoport rendezvénye a
Régi szövegek gépi elemzése tudomány napja alkalmából
Válságban a TEI konzorcium? Ingyenes online NLP-kurzus a
Stanfordon
Különös betűk a képernyőn
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
Digitalizáljuk a Himnuszt!
16. „a legjobb megoldás a "digitális fakszimilék" publikálására az lenne, ha a
kódolt szöveget összekapcsolnánk a dokumentumról készült jó minőségű
fotóval.”
A kód és a kép manuális összekapcsolását egy felhasználóbarát
felületen keresztül.
Tile
Az eszköz online hozzáférhető, de letölthető az offline
is használható változata.
Beépített automatikus sorfelismerő
A szoftver arra alkalmas, hogy egy kódolt szöveget
összekapcsoljunk egy kép négyszög vagy ellipszis alakú részletével.
Részletes használati útmutatót ad, hibákra világít rá
17. Nem találunk szavakat Digitalizáljuk a Himnuszt!
Kódból kimenet kódolási Digitális bölcsészet nálunk és
eljárások más nemzeteknél
Digitális kiadások: autopszia és Különös betűk a képernyőn (a
digitális archiválás böngészőben)
TEI és Drupal Könyvajánló
Kód és kép összekapcsolása Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása 2.
A Digitális Kultúra és Elméletek
Régi szövegek gépi elemzése Kutatócsoport rendezvénye a
Válságban a TEI konzorcium? tudomány napja alkalmából
Különös betűk a képernyőn Ingyenes online NLP-kurzus a
Stanfordon
Bevezetés a
korpusznyelvészetbe
Kőbe vésett XML
18. statisztikai alapú gépi nyelvfeldolgozási-elemzési metódusok nagy
mennyiségű adat alapján viszonylag jó eredménnyel lehet nyelvi
szabályszerűségekre következtetni.
MTA Nyelvtudományi Intézetek több projektje.
Régi szövegek esetén is működik?
Problémák:
Betűhasználat következetlensége.
Egyszerre több nyelvváltozat (nyelvjárás).
„Nem valósítható meg teljes bizonyossággal, mert a hangérték megállapítása
sokszor komoly nyelvtörténeti felkészültséget igényel, ráadásul bizonyos
esetekben akár többféle olvasat is elképzelhető.”
19. két dolog szükséges a régi szövegek mai helyesírásra
történő gépi konvertáláshoz:
nagy mennyiségű egységes hangjelölésű adatra
tanulókorpuszra (amelyben a hangjelölést
nyelvtörténész kézzel egységesítette)
„A két korpusz közti megfelelések alapján a régi szöveg
szóalakjaiból lehetséges mai alakokat generál, és megadja az
egyes alakok helyességének valószínűségét.”
20. Nem találunk szavakat Digitalizáljuk a Himnuszt!
Kódból kimenet kódolási Digitális bölcsészet nálunk és
eljárások más nemzeteknél
Digitális kiadások: autopszia és Különös betűk a képernyőn (a
digitális archiválás böngészőben)
TEI és Drupal Könyvajánló
Kód és kép összekapcsolása Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása 2.
A Digitális Kultúra és Elméletek
Régi szövegek gépi elemzése Kutatócsoport rendezvénye a
Válságban a TEI konzorcium? tudomány napja alkalmából
Különös betűk a képernyőn Ingyenes online NLP-kurzus a
Stanfordon
Bevezetés a
korpusznyelvészetbe
Kőbe vésett XML
21. Miként tároljuk és jelenítsük meg azokat a speciális
betűket, amelyek a számítógép-használó szélesebb rétegek
számára nem annyira fontosak?
speciális betű előállítása már létező Unicode-elemekből,
azaz ún. kombinált karakter használata: á, ö, ó stb.
”Ha azonban nem tudjuk kombinált jelként felépíteni a speciális
karakterünket, akkor már csak egy megoldás marad: az
ún. Private Use Area (PUA) használata. Ez olyan kódpontok
összességét jelenti, amelyeket szabadon hagytak saját jelek
használatára. Ezzel csak az a gond, hogy ha saját fejlesztésű
karakterkészletet használok, akkor a felhasználóknak is le kell
tölteniük azt a saját gépükre.”
22. Nem találunk szavakat Digitális bölcsészet nálunk és más
nemzeteknél
Kódból kimenet kódolási
eljárások Különös betűk a képernyőn (a
böngészőben)
Digitális kiadások: autopszia és
digitális archiválás Könyvajánló
TEI és Drupal Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása
A Digitális Kultúra és Elméletek
Kód és kép összekapcsolása 2. Kutatócsoport rendezvénye a
Régi szövegek gépi elemzése tudomány napja alkalmából
Válságban a TEI konzorcium? Ingyenes online NLP-kurzus a
Stanfordon
Különös betűk a képernyőn
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
Digitalizáljuk a Himnuszt!
23. A történészek számára nagy előnyt jelent, ha a forrásokat
valamilyen internetes felületen tanulmányozhatják,
archiválják és interneten közzéteszik
Fontos a kereshetőség a forrásban néhány levéltári adat
elérhető ilyen formában is
A feliratok tanulmányozása sokszor jóval nagyobb
nehézséget jelent a kutató számára, mint pl. a kéziratok és
nyomtatványok esetében. mozdíthatatlan (épület,
szobor)
A hagyományos megoldás a feliratgyűjtemény, amely
nyomtatott formában tartalmazza a szövegeket, jobb
esetben az objektumról készült fényképpel együtt. Az
ilyen gyűjtemények ma már elkészíthetők digitális
változatban is.
24. Digitalizáció esetén nehézség lehet:
Nem kódolt írásrendszer
Kopás, olvashatatlanság „A karcolások és töredezések a kődarab
történetével együtt rendkívül fontos információkat hordozhatnak,
ezeket valahogyan tartalmaznia kell a digitálisan archivált
változatnak!”
Megoldás?
XML. „Ezzel ugyanis az égvilágon mindent lehet kódolni, mivel
általános célú jelölőnyelv.” Az archiválás ezáltal megvalósítható!
DE: az információ kinyerését lehetővé tevő eszközök hiánya!
25. a szöveg aktuális állapotát,
megjelenési formáját tükröző
változat
XML-lel kódolt változat
kutatók által helyreállított
változat
26. Nem találunk szavakat Digitalizáljuk a Himnuszt!
Kódból kimenet kódolási Digitális bölcsészet nálunk és más
eljárások nemzeteknél
Digitális kiadások: autopszia és Különös betűk a képernyőn (a
digitális archiválás böngészőben)
TEI és Drupal Könyvajánló
Kód és kép összekapcsolása Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása 2.
A Digitális Kultúra és Elméletek
Régi szövegek gépi elemzése Kutatócsoport rendezvénye a
Válságban a TEI konzorcium? tudomány napja alkalmából
Különös betűk a képernyőn Ingyenes online NLP-kurzus a
Stanfordon
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
27. nem létezik szabványos
formában digitalizált
változata
először is el kell döntenünk,
hogy mit akarunk rögzíteni:
kézirat, kiadások eltérése
vagy kiválasztjuk
valamelyik kiadást
(dokumentum digitalizációja),
és azt rögzítjük, vagy olyan
digitalizált változatot
készítünk,
amelyben az összes variánst
feltüntetjük (szöveg
digitalizációja)
28. Nem találunk szavakat Digitális bölcsészet nálunk és más
nemzeteknél
Kódból kimenet kódolási
eljárások Különös betűk a képernyőn (a
böngészőben)
Digitális kiadások: autopszia és
digitális archiválás Könyvajánló
TEI és Drupal Hogyan kezdjünk digitális
bölcsészettel foglalkozni?
Kód és kép összekapcsolása
A Digitális Kultúra és Elméletek
Kód és kép összekapcsolása 2. Kutatócsoport rendezvénye a
Régi szövegek gépi elemzése tudomány napja alkalmából
Válságban a TEI konzorcium? Ingyenes online NLP-kurzus a
Stanfordon
Különös betűk a képernyőn
Bevezetés a korpusznyelvészetbe
Kőbe vésett XML
Digitalizáljuk a Himnuszt!
29. 1. Legyen világos, hogy milyen célok és kérdések vezérelnek!
2. Tájékozódj a DH-ról!
3. Légy része a DH-s közösségnek!
4. Informálódj!
5. Fedezz fel projekteket.
6. Vegyél részt (tovább)képzéseken!
7. Tanuld a standardokat és a "jó gyakorlatokat„!
8. Keress partnereket! (több jártasság)
9. Tervezz pilótaprojekteket! (egy kis részét megvalósítani a
tervezett nagyobb munkának)
10. Ahol csak lehetséges, adaptáld a már elérhető eszközöket! (Amire
már van eszköz, azt kell használni.) 10 alapelv
30. Pázmány, Debrecen
Valamely bölcsészeti vagy társadalomtudományi,
informatikus, matematikus alapszakon végzetteket várnak
Indított szakirányok: digitális kultúra, számítógépes nyelvészet
A képzés célja olyan szakemberek képzése, akik megszerzett szabad
bölcsészeti ismereteik birtokában, valamint nyitott, interdiszciplináris
szemlélet birtokában képesek bölcsészeti tartalmak modern technikai
eszközökkel történő megjelenítésével kapcsolatos feladatok ellátására.