1. Tudománymetriai adatok elemzése a
publikálási aktivitás és a társszerzői
hálózatok feltérképezésében
Merész Gergő
Merész Gergő
Hungarian Natural Language Processing Meetup
2014. szeptember 25.
2. Miért pont tudománymetria?
• A biomedikális kutatásokon belül nem
kifejezetten túlkutatott terület
• A rendelkezésre álló adatvagyon folyamatosan
gyarapszik
– Mennyiségében („közlési nyomás”)
– Minőségében (validitás – folyóiratok lefedettsége)
• Minimálisan finomított elemzési technikákkal
széleskörben érthető, érdekes információ
nyerhető ki
3. Mi az, ami hiányozhat?
• Elemzési kapacitás
– Az adatmennyiség szempontjából nem opció további
humánerő bevonása
• A tudományterületek határainak áttörése
– Azonos, mindenki számára átlátható módszertannal
• Frissesség
– Az irodalmi hivatkozás önmagában kevéssé érdekes;
inkább technikai célokat szolgál
– Kutatók „önkutatása” – saját magunkat lapogatjuk
4. Milyen adatok / eszközök állnak
rendelkezésre?
• PubMed adatbázis
– Integrált, tudományos irodalmi adatbázis
– Egységes formátum (Medline), strukturált rekordok
• R statisztikai szoftver és csomagjai
– Rugalmas fejlesztési környezet
– Munkaigényes lehet
– Ingyenes
• Egyéb
– Inputok, amelyek a kérdésfeltevést közvetlenül segítik
5. Esettanulmányok
• #1: Egy tudományos testületbe történő beválasztás
vajon növeli-e az illető publikációs aktivitását?
– Epidemiológiai módszertan alkalmazásával vizsgálható
• #2: Egy szakmai szerveződésben ki kivel szokott közös
közleményt jegyezni?
– Hálózatkutatás módszertanával vizsgálható
(Ami közös: egyszerű nyelvfelismerő technikák
alkalmazása szükséges)
6. Esettanulmány #1
• Frisch, IZA, John Bates Clark díjak hatása a
közgazdászok publikálási aktivitására (Bricogne,
2014)
– A díjak hatása nem egyértelmű a publikációk
mennyiségére, minőségére vonatkozóan
– Igazolták, hogy valamilyen módon figyelemmel kell
kísérni a publikációk számának „természetes”
növekedését az idő múlásával
• Mi a helyzet, ha valaki az International Society for
Pharmacoeconomics and Outcomes Research
(ISPOR) vezetőségébe kerül?
7. Elemzésünk lépései
• Adott volt a korábbi ISPOR Board of Directors
tagok listája, és az időszak, amikor betöltötték
a tisztséget
• Minden korábbi taghoz a tagságának
megfelelő idejű „szűrési” és „követési”
időszakot rendeltünk
– Ezzel egy ún. historikus case-only vizsgálati
elrendezést hoztunk létre
• Ezután következhetett az adatgyűjtés
8. Elemzés folyamata
Keresőkifejezés
összeállítása (tag
neve és időablak)
Kapcsolódás a
PubMed APIhoz /
kifejezés küldése
Kapott XML fájlok
mezőinek
felbontása
adattáblákra
A közlemények
összesítése az
adott időszaknak
megfelelően
Kimeneti
paraméter
pontbecslése
Értelmezés
9. Pontbecslés
• Szükséges volt egy olyan kimeneti paraméter becslése,
amivel leírható a közlemények publikálásának időbeli
„sűrűsödése”
– A mutató neve: incidencia sűrűség hányados (ISH)
– Becslési módszertan: Poisson-regresszió (korrekció miatt)
• A következő képzelhető el: ha két év alatt összesen
négy közlemény jelenik meg ugyanazon kutató neve
alatt, a kapott IS-érték 2 közlemény / év lesz. Ha a
rákövetkező két évben az illető kutató 10 közleményt
közöl, erre az időszakra az IS-értéke 5 közlemény / év
lesz, a két időszak hányados-mutatója pedig 5/2 = 2.5
lesz.
10. Eredmények
„Megelőző” időszak „Igazgatóság” időszaka „Követési” időszak
Átlagos éves publikációszám
2.62 / közlemény / év 3.97 / közlemény / év 4.32 / közlemény / év
ISH
---
1.59
(ref. „megelőző” időszak)
1.01
(ref. igazgatósági időszak)
Mellékeredmények
A közlemények 22.91%-
ában (legmagasabb) a
kutatott személy az első
szerző
Statisztikailag
szignifikánsan több
közlemény az előző
időszakhoz képest
Átlagosan a legtöbb (5.94)
társszerző itt!
11. Mit mondhatunk ez alapján?
• Ebben a testületben az újonnan beválasztott
tagok
– A megelőző években „katalizálták” a
közleményeiket
– Tagként látványosan keresettebbé váltak
– ...új „társszerző-barátokra” tettek szert (miután
kifutották magukat tagként)
12. Esettanulmány #2
• A hazai tudományos közösségek aktivitásának
mérése ritka, az erről folyó vita is inkább elméleti
síkon „saját megítélés” alapján zajlik
• A META (Magyar Egészség-gazdaságtani Társaság)
közösségében térképeztük fel a publikációs
aktivitást és társszerzői hálózatokat
• Ez a vizsgálat minőségében tért el az előző
példától
– Dinamikus populáció, nem adott egyedek csoportja
13. Eredmények
– Tag / nem tag társszerző szerint
• Pontok mérete arányos a
fellelhető publikációk
számával
• Viszonylag kevés hub
társszerző
• Eltérő méretű társszerzői
hálózatok épültek ki
• A publikációs aktivitás a
tagság bővülésével nőtt
(inkább extenzív jellegű)
• Eltérő szerkezetű szerzői
hálózatai vannak az eddigi
elnököknek
14. Miért jöttünk el az NLP meetupra?
• Szerettünk volna bemutatkozni
• Lelkesek vagyunk
• Mentorokat keresünk!
– Ingyen dolgozunk jelenleg
– Kutatási ötletekre várunk
16. Hivatkozások
Jean-Charles Bricongne: Do prizes in economics affect productivity?
LIEPP Working Paper, April 2014, nº24.
Elérhető: http://www.sciencespo.fr/liepp/sites/sciencespo.fr.liepp/files/WP-24-
Bricongnes-LIEPP.pdf
[utoljára megtekintve: 2014. 09.25]
G Merész, G Gyurcsán, B Salfer: Easy come, hardly go: epidemiological methods to
evaluate the effect of ISPOR Board of Directors memebership on publication activity.
ISPOR 17th Annual European Congress, Poster, Amsterdam, The Netherlands,
November, 2014.
Merész G, Földesi Cs, Nagyistók Sz, Vincziczki ÁZ. A Magyar Egészség-gazdaságtani
Társaság tagságának publikációs aktivitása. VIII. IME – META Országos Egészség-gazdaságtani
Továbbképzés és Konferencia, előadás és poszter, Budapest, 2014. június
18-19.