- 4세대 연구 패러다임 변화
- 연구환경 변화
- 연구자가 원하는 콘텐트
- Open Science
- Data 정의 및 구분
- Dataset & Meta data
- Research records
- 연구 데이터 정의 및 사례
- 과학 데이터 정의 및 특징
- Data Publication
- Data Journal
- Data Paper
- Data Management Plan
- Data Repository
- Data Scientists
- 과학의 신뢰와 DMP-ProRR
2. 목차
2
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
3. 4세대 연구 패러다임 변화 (1/2)
• Microsoft Research announced the availability of the book – The Fourth Paradigm:
Data-Intensive Scientific Discovery. The book focuses on the change of all sciences
moving
from observational, to
theoretical, to computational
and now to the 4th Paradigm –
Data-Intensive Scientific
Discovery.
This is based on Jim Gray’s insights captured via his final public talk to the National
Research Council on Jan 11, 2007. This is truly a legacy of his work.
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
https://blogs.msdn.microsoft.com/escience/2009/10/16/the-fourth-paradigm-data-intensive-scientific-discovery-book-released/
3제 17회 연구소재은행 교육프로그램 / 곤지암리조트
4. 4세대 연구 패러다임 변화 (2/2)
• Scientific breakthroughs will be powered by advanced
computing capabilities that help researchers manipulate
and explore massive datasets. 컴퓨팅 파워
• The speed at which any given scientific discipline advances
will depend on how well its researchers collaborate with
one another, and with technologists, in areas of eScience
such as databases, workflow management, visualization,
and cloud computing technologies. 연구자들간 협력,
연구자와 엔지니어들과의 협력 필요
Source: The Fourth Paradigm: Data-Intensive Scientific Discovery – Book Released
https://blogs.msdn.microsoft.com/escience/2009/10/16/the-fourth-paradigm-data-intensive-scientific-discovery-book-released/
4제 17회 연구소재은행 교육프로그램 / 곤지암리조트
6. 연구자가 원하는 콘텐트 (1/2)
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 6
7. 연구자가 원하는 콘텐트 (2/2)
연구 소재의 위치는 어디쯤 될까요?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 7
8. 목차
8
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
9. Open Science
• Open Science 텍사노미
• Open Science 핵심 요소
• OS 요소들의 원칙과 동향
• 오픈 사이언스 효과와 사례
9제 17회 연구소재은행 교육프로그램 / 곤지암리조트
11. Open Data
Open Science Tools Open Repositories
Research Data
Scientific Data
Data Journal/Paper
DMP
오픈 사이언스 텍사노미 (2/2)
11제 17회 연구소재은행 교육프로그램 / 곤지암리조트
12. OS 핵심 요소 (1/5)
Open access
• refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or no copyright and licensing restrictions.
• 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용
하는 Open Access
• The first official recognition of open access dates back to 2002, when the
Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an
increase in the amount of free of cost, accessible and reusable research outputs.
• 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용
• Since then, the open scholarly communications agenda has grown and
currently more terms are embedded in it such as
open data, open source and open reproducible research.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce
(2015). "Fostering Open Science to Research using a Taxonomy and an
eLearning Portal". Retrieved 12 August 2015.
12제 17회 연구소재은행 교육프로그램 / 곤지암리조트
13. OS 핵심 요소 (2/5)
Open data
• deals with the online publication of the research data
gathered during a research project and made available
for access and re-use.
Murray-Rust, P. (2008). Open Data in Science. Serials Review,
vol.34, no.1, pp.52-64. doi:10.1016/j.serrev.2008.01.001
13제 17회 연구소재은행 교육프로그램 / 곤지암리조트
14. OS 핵심 요소 (3/5)
Open source means software that
• can be accessed online for free,
– with a source code license
• that allows its use,
• creation of derivatives and
• distribution.
Altenhören, R. Open Source Software - definition, licensing
models and organizational consequences (introduction). In
Proceedings of the 71 IFLA General Conference and Council
“Libraries – A voyage of discovery” (Oslo, 2005) URL
http://archive.ifla.org/IV/ifla71/papers/121e-Altenhoener.pdf
14제 17회 연구소재은행 교육프로그램 / 곤지암리조트
15. OS 핵심 요소 (4/5)
• Open reproducible research is the act of practicing OS to
enable the independent reproducibility of the research
results. Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International Journal of
Communications Law and Policy, vol.13, pp.1-25
연구결과 재현을 위해, 꼭 필요한 것은 무엇입니까?
15제 17회 연구소재은행 교육프로그램 / 곤지암리조트
16. OS 핵심 요소(5/5)
Among the four open movements,
• open source and open access are the ones that have
existed longer, have gained plenty of supporters,
progressed and grown.
– With regards to open source, currently, there are open platforms for open software, such
as GitHub , Bitbucket or SourceForge .
– the Directory of Open Access Journals
9,313 Journals / 6,484 searchable at Article level /
128 Countries / 2,340,270 Articles 2016.11.23 기준
– OpenDOAR에3,236개 리포지터리 등록 2016.10.24 기준
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
16제 17회 연구소재은행 교육프로그램 / 곤지암리조트
17. OS 요소들의 원칙과 동향
OS shares the same underlying principles:
• transparency,
• universal accessibility and
• reusability of the scientific information disseminated via online tools
Gezelter, D. (2009). What, exactly, is Open Science? URL
http://www.openscience.org/blog/?p=269
연구 소재로의 접근을 어떻게 제공할 것인가?
The fact that OS is inclusive of these four terms demonstrates
a universal trend that
• calls for a shift in the researchers’behaviour towards open content and for
the adoption of a wide range of open practices and strategies that relate
to the whole research life cycle. Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science
to Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
연구 수명 주기에서 ‘연구 소재’의 위치는 어디인가?
17제 17회 연구소재은행 교육프로그램 / 곤지암리조트
18. 오픈 사이언스 효과
• the reproduction of the research findings,
• enables transparency in the research methodology,
• increases the researcher's societal impact and
• saves money and time both for researchers and research
institutions.
• OS is a relatively new and complex concept and
• its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and
will demand the adoption of new practices.
• Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS.
Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to
Research using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.
18제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 수행과 정보공유에 있어 SHIFT / 새로운 실천 필요
무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?
19. 오픈 사이언스 사례 (1/2)
• 운영주체 : Center for Open Science (COS) 개발, 유지
• 예산지원 : federal agencies, private foundations, and commercial entities
• 저장공간 : 개인 연구자별 5GB 제공
• Project >> components >> files
• 컴포넌트 = sub-project
• 컴포넌트 자체의 privacy and sharing settings
• 컴포넌트 인용을 위한 식별자
• 컴포넌트 위키 및 add-ons
• 프로젝트 등록 없이 컴포넌트 등록 가능
19제 17회 연구소재은행 교육프로그램 / 곤지암리조트
21. 목차
21
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
22. • 데이터 정의
• 데이터 구분
• 데이터 세트
• 메타 데이터
• 연구 기록
22제 17회 연구소재은행 교육프로그램 / 곤지암리조트
23. 데이터 정의
• Generally and in science, data is a gathered body of facts.
Soruce : http://searchdatamanagement.techtarget.com/definition/data
• A reinterpretable representation of information in a formalized
manner suitable for communication, interpretation, or processing.
A sequence of bits, a table of numbers, the characters on a
page, the recording of sounds made by a person speaking,
or a moon rock specimen. Source : http://public.ccsds.org/publications/archive/650x0m2.pdf
데이터란 facts(사실, 실상, 실제)의 집합
데이터란 재해석 가능한 정보의 표현
해양과학 분야에서는 데이터 대신 ‘자료’ 라는 표현을 사용 하는데…
연구 소재에서 ‘소재’는 무엇일까? 소재도 데이터일까?
연구소재 = 데이터 + 정보
23제 17회 연구소재은행 교육프로그램 / 곤지암리조트
24. 데이터 구분
Source : https://en.wikipedia.org/wiki/Data
Observational data captured in real-
time, usually irreplaceable. For example, sensor data,
survey data, sample data, neurological images.
Experimental data from lab equipment,
often reproducible, but can be expensive. For example,
gene sequences, chromatograms, toroid magnetic field
data.
Simulation data generated from test
models where model and metadata are more important
than output data. For example, climate models,
economic models.
Derived or compiled data is
reproducible but expensive. For example, text and data
mining, compiled database, 3D models.
Reference or canonical a
(static or organic) conglomeration or collection of
smaller (peer-reviewed) datasets, most probably
published and curated. For example, gene sequence
databanks, chemical structures, or spatial data portals.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
Raw Data
(Unprocessed Data)
Processed Data
Result Data
Scientific Data ⊂ Research Data
Qualitative Data
Quantitative Data
First Engilish use -
1640s
"transmittable and
storable computer
information“ – 1946
"data processing“ - 1954
데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분
24제 17회 연구소재은행 교육프로그램 / 곤지암리조트
25. 데이터 세트
• A data set is a collection of related data and
information-generally numeric, word oriented, sound, and/or image-organized to permit
search and retrieval or processing and reorganizing.
• Many data sets are resources from which specific data points, facts, or textual information is
extracted for use in building a derivative data set or data product. A derivative data set,
also called a value-added or transformative data set, is built from one or more
preexisting data set(s) and frequently includes extractions from multiple data sets as well as original
data (Committee for a Study on Promoting Access to Scientific and Technical Data for the Public Interest, 1999, p. 15).
Data set = Data + Information = Research Resources
Data sets = Data set + Data set
Derivative data set = Value-added data set
= Transformative data set
25제 17회 연구소재은행 교육프로그램 / 곤지암리조트
26. 메타 데이터
• Metadata is structured data about dataSource : http://www.bu.edu/datamanagement/background/whatisdata/
• Metadata addresses data attributes that describe, provide
context, indicate the quality, or document other object (or
data) characteristics.” source : Greenberg (2005, p. 20 Metadata: A Cataloger's Primer)
• Metadata are often classified by their purpose
descriptive metadata, administrative metadata,
and structural metadata as the most common
subclassifications.
• Rights management (terms and conditions), provenance, and preservation metadata are most often
subcategorized under administrative metadata; however,
some taxonomies promote these to first-class categories (Greenberg, 2005; National Information Standards
Organization [NISO], 2004).
data and information
26제 17회 연구소재은행 교육프로그램 / 곤지암리조트
27. 연구 기록, Research records
• Records are documents containing data or information of
any kind and in any form (including both paper-based and
electronic format) created or received by an organisation or person for use in the course
of their work and subsequently kept by that organisation or individual as evidence of
that work, or because of the informational value of the data that such documents contain.
Records associated with the research process include correspondence (including electronic mail as
well as paper-based correspondence); project files; grant applications; ethics applications;
authorship agreements; technical reports; research reports; laboratory notebooks or research
journals; master lists; signed consent forms; and information sheets for research participants.
Source : https://policy.unimelb.edu.au/MPF1242
27
연구 소재 = 데이터와 정보
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
28. 목차
28
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
29. • 연구 데이터 정의
• 연구 데이터 사례
• 연구 데이터, 공공 데이터, 과학 데이터
• 과학 데이터 정의 및 사례
• 과학 데이터 유형
• 과학 데이터 특징
29제 17회 연구소재은행 교육프로그램 / 곤지암리조트
30. 연구 데이터 정의 (1/2)
Datacite.org
• Research Content = Research Objects, Research Data ⊂ Research Objects
• Research Objects ∃ Workflows, Research Data ∄ Workflows
• Research Objects ∃ Standards, Research Data ∄ Standards
• Research Data ∃ Dataset
Queensland univ
• { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data from Queensland univ.
Melbourne univ
• { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research data in hardcopy or in
computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from
Melbourne univ.
• { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ.
• {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements;
technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for
research participants } ⊂ Research records from Melbourne univ.
Griffith Univ.
• 설문조사, 녹음 자료는 연구 데이터 인가?
• primary materials’ vs ‘research data’
30제 17회 연구소재은행 교육프로그램 / 곤지암리조트
31. ! Research Data
연구 데이터 정의 (2/2)
• administrative data Administrative data consists of records of payrolls, student enrolments, research
assessment, and so on. Some administrative data relates to research projects and may need to be treated as
research data. However, for the most part it is treated independently within the institution in terms of
data management policies, procedures and strategies.
• teaching data Teaching data comprises courseware and other resources which are part of the teaching
function of a university. Again, this may be of interest to a research project, but it is usually managed independently.
• research publications Research publications can be regarded as data, but for the most part these are well
taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open
access or for research reporting purposes, these tend to be managed separately from other research data. Source :
http://www.bu.edu/datamanagement/background/whatisdata/
31제 17회 연구소재은행 교육프로그램 / 곤지암리조트
연구 기록 = 데이터와 정보를 포함한 인쇄 및 디지털 문서
= research publications
When (!Reserch Data) are used for research, it could be
called as Research Data. Am I right?
32. 연구 데이터 사례
• Text or Word documents, spreadsheets
• Laboratory notebooks, field notebooks, diaries
• Questionnaires, transcripts, codebooks
• Audiotapes, videotapes
• Photographs, films
• Test responses
• Slides, artifacts, specimens, samples
• Collection of digital objects acquired and generated during the process of research
• Data files
• Database contents including video, audio, text, images
• Models, algorithms, scripts
• Contents of an application such as input, output, log files for analysis software,
simulation software, schemas
• Methodologies and workflows
• Standard operating procedures and protocols
Primary Data
Secondary Data
Processed Data
Research Records
Source :
http://www.bu.edu/datamanage
ment/background/whatisdata/
Correspondence including electronic mail and paper-based correspondence /
Project files / Grant applications / Ethics applications / Technical reports / Research reports /
Master lists Signed consent forms
32제 17회 연구소재은행 교육프로그램 / 곤지암리조트
33. 연구 데이터, 공공 데이터, 과학 데이터
• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary
sources for research, and that are commonly accepted in the research community as necessary to validate research
findings. Source : http://www.ands.org.au/guides/what-is-research-data
• Another way of approaching a definition of research data is to ask the
question 'what needs to be kept to validate the results of research?' This
may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be
kept in case research findings are questioned.
Source : http://www.bu.edu/datamanagement/background/whatisdata/
연구 데이터
• Factual records used for validating research findings
• 연구 과정에서 수집, 생산된 데이터
• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)
• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)
공공 데이터
• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터
과학 데이터
• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데
이터로 분류할 수 있음
33제 17회 연구소재은행 교육프로그램 / 곤지암리조트
34. 과학 데이터 정의
• Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서
관측(Observation), 감시(Monitoring), 조사(Investigation), 실
험(Experiment), 연구 분석(Research Analysis), 계산
(Computation) 등의 활동을 통해 생성된 데이터
• OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요
한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이
미지 및 소리)으로 정의
• CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합
하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현
Consultative committee on Space Data Systems
Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop
34제 17회 연구소재은행 교육프로그램 / 곤지암리조트
35. 과학 데이터 정의 및 사례
과학 데이터 정의
• 연구자의 연구 활동 과정 중 생성되는 다양한 유형 의 사
실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연
구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산
등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상
등의 아날로그 및 디지털 형식을 포괄하는 데이터
과학 데이터 사례
• 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표
본 자료, 천문학의 분광관측(spectral survey) 자료 등
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193
35제 17회 연구소재은행 교육프로그램 / 곤지암리조트
36. 과학 데이터 유형
• 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에
따라 다양
• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태
• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터로
서 공간 및 수치정보와 이미지 정보
• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계데
이터 형태
• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정보
• 소량의 통계데이터 부터 가속기를 통해 매년 16
Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지
규모와 형태 적인 측면에서 매우 다양한 특징
36제 17회 연구소재은행 교육프로그램 / 곤지암리조트
37. 과학 데이터 특징
• 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식
을 취하는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포
괄하여 모든 유형의 형식으로 존재
• 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이
터는 최종의 결과물을 추출하기 위 한 기초데이터(Raw
Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활동에 대한 최종 결과물을 생산
하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용
• 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데
이터 까지를 포괄
• 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함
으로 해서 단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨
Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」
37제 17회 연구소재은행 교육프로그램 / 곤지암리조트
38. 목차
38
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
39. • Data Publication for Open data
• From Publications To Products
• 데이터 출판 사례
• Data Journal
• Data Paper
39제 17회 연구소재은행 교육프로그램 / 곤지암리조트
40. Data Publication for Open data
Open data is the idea that some data should be freely
available to everyone to use and republish as they
wish, without restrictions from
copyright, patents or other
mechanisms of control.The goals of the open data movement
are similar to those of other "open" movements such as open source, open hardware, open
content and open access. ..... (중략) ... The term "open data" itself is recent, gaining popularity with the
launch of open-data government initiatives such as Data.gov and Data.gov.uk.
Source : https://en.wikipedia.org/wiki/Open_data
연구 소재와 관련된 출판 대상자원으로는 무엇이 있는가?
40제 17회 연구소재은행 교육프로그램 / 곤지암리조트
41. From Publications To Products
2013 년 1월부터는 미국 과학 재단(National Science
Foundation)의 보조금 신청 지침이 변경되어 연구 산출물의
명칭이 “출판물(Publications)”에서“생산물(Products)”로
바뀌었으며, 그에 따라 논문과 함께 연구데이터가 제출되어
야 ... (National Science Foundation 2012
source : http://scholar.ndsl.kr/schDetail.do?cn=JAKO201610254117580#)
41
연구 소재는 연구 데이터 출판과 어떤 관계가 있을 수 있는가?
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
42. Zenodo 사례 (1/2)
• Collection of data, research papers, reports, white papers,
presentations etc created, authored and published by
CODATA https://zenodo.org
42제 17회 연구소재은행 교육프로그램 / 곤지암리조트
43. Zenodo 사례 (2/2)
• Research. Shared. — all research outputs from across all fields
of research are welcome! Sciences and Humanities, really!
• Citeable. Discoverable. — uploads gets a Digital Object
Identifier (DOI) to make them easily and uniquely citeable.
• Communities — create and curate your own community for a
workshop, project, department, journal, into which you can
accept or reject uploads. Your own complete digital repository!
• Funding — identify grants, integrated in reporting lines for
research funded by the European Commission via OpenAIRE.
• Flexible licensing — because not everything is under Creative
Commons.
• Safe — your research output is stored safely for the future in
the same cloud infrastructure as CERN's own LHC research data.
43제 17회 연구소재은행 교육프로그램 / 곤지암리조트
44. OpenAIRE (1/2)
• OpenAIRE is an EC funded project (FP7 246686 and 283595)
• OpenAIRE is a network of Open Access repositories, archives and
journals that support Open Access policies.
• It goes beyond the traditional publications aggregator by
interconnecting entities related to scholarly communication (publications,
research data, funding, people, organizations, data sources) allowing users to
navigate alongside a rich information space graph and provides a wide range of services, from deposition to
statistics.
• OpenAIRE has access to 17,252,818 publications and 28,258 datasets
from 5,717 data sources. These involve 653,009 projects and
30,573 organizations. (2016년 11월10일 현재)
Source: https://www.openaire.eu
44제 17회 연구소재은행 교육프로그램 / 곤지암리조트
46. ATCC 사례
46
Source :
https://www.atcc.o
rg/en/Products/All
/10895.aspx
ATCC is the premier global
biological materials
resource and standards
organization whose mission
focuses on the acquisition,
authentication, production,
preservation, development, and
distribution of standard reference
microorganisms, cell lines, and
other materials. While maintaining
traditional collection materials, ATCC
develops high quality products,
standards, and services to support
scientific research and
breakthroughs that improve the
health of global populations.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
47. InCHIANTI 사례
47
Source : http://inchiantistudy.net/wp/
BioBank 키워드 검색결과 Re3data.org에 3건 등록되어 있음. InCHIANTI는 그중 하나
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
48. ATCC 사례
• repositoryName : American Type Culture Collection
• https://www.atcc.org/?geo_country=kr
• While focused on supporting the scientific community, ATCC activities range widely, from repository-related operations to
providing specialized services, conducting in-house R&D and intellectual property management. ATCC serves U.S.
and international researchers by characterizing cell lines,
bacteria, viruses, fungi and protozoa, as well as developing and
evaluating assays and techniques for validating research
resources and preserving and distributing biological materials to
the public and private sector research communities. Our management
philosophy emphasizes customer satisfaction, value addition, cost-effective operations and competitive benchmarking
for all areas of our enterprise.
• Re3data.org에 등록된 데이터 리포지터리 중
Material 키워드를 포함한 레코드 건수 : 103개 (2016.10.24 기준)
48
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
49. WDCM 사례 (1/3)
World Data Centre for Microorganisms (WDCM)
• 50 년전 설립된 World Federation for Culture Collections (WFCC)의 데
이터 센터—Microbial Resource Center (MIRCEN).
• Re3data.org 등록되어 있음 http://www.wdcm.org/
• 빅데이터 기술을 이용하여 전 세계 미생물 자원센터들과 미생물학자
들에게 통합정보서비스(integrated information services) 제공을 목적
으로 함
– Culture Collections Information) Worldwide (CCINFO) : 메타데이터 정보 제공
708 culture collections from 72 countries and regions.
– Global Catalogue of Microorganism (GCM) gathers strain catalogue information and provides a
data retrieval, analysis, and visualization system of microbial resources. Currently, GCM includes >368 000 strains from 103 culture collections in 43
countries and regions.
– Analyzer of Bioresource Citation (ABC) is a data mining tool extracting strain related publications,
patents, nucleotide sequences and genome information from public data sources to form a knowledge base.
– Reference Strain Catalogue (RSC) maintains a database of strains listed in International Standards
Organization (ISO) and other international or regional standards. RSC allocates a unique identifier to strains recommended for use in diagnosis and
quality control, and hence serves as a valuable cross-platform reference.
– WDCM provides free access to all these services at www.wdcm.org.
49
연구 소재 리포지터리 사례는 존재한다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
52. Data Journal (1/2)
Data journals exist in some domains, such as
• the Earth Systems Science Data Journal
• Geoscience Data Journal,
• to publish data papers and provide services, such as peer review of the paper and
the underlying data set.
A data paper is not a traditional journal paper as it allows the publication of the data
set without the requirement for novelty or significant analysis or conclusions to be drawn.
It is a way to provide discoverability and quality assurance mechanisms for data that
may be of use or interest to others while at the same time providing credit for the
researchers involved in creating the data set.
52제 17회 연구소재은행 교육프로그램 / 곤지암리조트
53. Data Journal (2/2)
Is the Journal listed by
Thomson Reuters’ (formerly ISI)
Web of Science?
Geoscience Data Journal was
accepted for inclusion within
the Web of Science beginning
with Volume 1 (2014) and will
gain it's first Impact Factor for
the 2016 Impact Factor window.
There are also discussions with
Thomson Reuters regarding
their recent announcement of a
Data Citation Index.
53제 17회 연구소재은행 교육프로그램 / 곤지암리조트
54. Data paper
A data paper describes a dataset, giving details of its
collection, processing, software, file formats etc, without the
requirement of novel analyses or ground breaking
conclusions. It allows the reader to understand the when,
how and why data was collected and what the data-product
is.
Source:
http://onlinelibrary.wiley.com/journal/10.
1002/(ISSN)2049-6060
54제 17회 연구소재은행 교육프로그램 / 곤지암리조트
55. 목차
55
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
56. • DMP
• Guidelines for Effective Data Management Plans
• Data Repository
• Guidelines for Repositories
56제 17회 연구소재은행 교육프로그램 / 곤지암리조트
57. DMP (1/3)
A data management plan
• is an integral part of the research plan.
• can be reviewed and expanded
during research
• but main principles and
procedures should be determined
before the research starts, at the latest before data collection begins.
• A data management plan (DMP) will help you manage your data,
meet funder requirements, and help others use your data if shared.
Source: http://www.fsd.uta.fi/aineistonhallinta/en/data-management-planning.html
57제 17회 연구소재은행 교육프로그램 / 곤지암리조트
58. • Data Description
• Existing data
• Format
• Metadata
• Sotrage and backup
• Security permissions, restrictions, and embargoes
• Responsibility names of the individuals
reponsible for data management
• Intellectual property rights
• Access and sharing
• Audience The potential secondary users of data
• Selection and retention
periods selected for archiving
• Archiving and preservation
• Ethics and privacy
• Budget request for funding may be included
• Data Organization version control,
naming conventions etc.
• Quality Assurance
• Legal Requirements all relevant federal
or funder requirements for data management and data sharing
DMP (2/3)
58제 17회 연구소재은행 교육프로그램 / 곤지암리조트
59. DMP (3/3)
• Questions to answer:
– What types of data will the project collect or use?
– What file format will be used?
– What metadata standard will be used?
– How will ethical issues concerning data management
be taken into account?
– How will copyright and IPR issues be managed?
– How will the data be made available for subsequent
use by other researchers?
– With which collaborators will the data be managed and
made openly available? source: http://www.fsd.uta.fi/aineistonhallinta/en/documents/FSD-
DMPTuuli-guidelines.html
59제 17회 연구소재은행 교육프로그램 / 곤지암리조트
60. Guidelines for Effective Data
Management Plans
v Resources for Development
• Australian National Data Service - Data management planning
• Digital Curation Centre - Data Management Plans
• Geoscience Australia - Guide to Preparation of Data Management Plans
• New South Wales Natural Resources Information Management Strategy - Data
Management Planning Guidelines
• University of Oxford - Data Management Planning Checklist
• University of Oxford - Data Management Planning
v Templates & Tools
v Guidance on Funder Requirements
v University Data Management Web Sites
v Good Practice Guidance
v Federal Agency Policies on Data Management and Sharing
v Other Data Management Plan Examples from Natural Sciences
Source: http://www.icpsr.umich.edu/files/datamanagement/DataManagementPlans-All.pdf
여러 DMP 참고하여
DMP 가이드라인 제시
연구 소재 은행에서
연구자에게 DMP 요구?
DMP 내용?
연구소재은행 거버넌스 체계?
60제 17회 연구소재은행 교육프로그램 / 곤지암리조트
62. Guidelines for Repositories
for Geoscience Data Journal
Before a dataset can be submitted for publication the dataset must be deposited in a registered repository, along with the associated metadata for
the dataset.
Repositories can be registered on a case by case basis through contact with the Geoscience Data Journal editor. At a minimum, repositories should
have the ability to:
• Assign DOIs to the dataset and offer sufficiently long data preservations that match the amount of time the
public will find this data scientifically beneficial.
• Store the data files in an easily
readable format across different computing platforms.
Allow reviewers easy (and anonymous to the dataset authors) access to the data and supporting metadata.
• Following successful review and publication the repository must provide open access to the
broad/public user community.
Datasets submitted for publication should be complete and not liable to change. Metadata should be included to allow a full understanding of the
data. Source: http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)2049-6060/homepage/guidelines_for_repositories.htm
62제 17회 연구소재은행 교육프로그램 / 곤지암리조트
63. 목차
63
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
65. Data Scientists (1/3)
Data Scientists (NSF 2005, p27)
The information and computer
scientists, database and
software engineers and
programmers, disciplinary
experts, curators and expert
annotators, librarians,
archivists, and others, who are
crucial to the successful
management of a digital data
collection
데이터 과학자
데이터 과학과 관련된 분야를 전공하고 데이터
분석과 관련된 업무에 종사하는 사람을 말한다.
즉 데이터 과학자는 현장에 존재하는 대량의 데
이터를 모으고, 분석에 적합한 형태로 가공하고,
데이터가 의미하는 바를 이야기(story)에 담아 다
른 사람에게 효과적으로 전달하는 역할을 한
다.(O’Reilly Media, 2012)
데이터 과학자
Business analyst VS. Data analyst
Research Scientist
Data Scientist
Experiences like my own suggest that the best way to become a data scientist
isn’t to be trained as a data scientist, but to do serious, data-intensive work in
some other discipline.
65제 17회 연구소재은행 교육프로그램 / 곤지암리조트
66. Data Scientists (2/3)
• September 2005 The National Science
Board publishes “Long-lived Digital Data
Collections: Enabling Research and Education in
the 21st Century.”
• The report defines data scientists as “the
information and computer scientists, database and
software engineers and programmers, disciplinary
experts, curators and expert annotators, librarians,
archivists, and others, who are crucial to the
successful management of a digital data
collection.”
66제 17회 연구소재은행 교육프로그램 / 곤지암리조트
67. Data Scientists (3/3)
• Research Data Management
• Research Data Service by Data Scientists Team.
67제 17회 연구소재은행 교육프로그램 / 곤지암리조트
68. 목차
68
Data Scientists
Open Science
Data Publication
Data Repository
Data Paper
연구 데이터 정의 및 사례
4세대 연구 패러다임 변화
연구환경 변화
연구자가 원하는 콘텐트
Data 정의 및 구분
Dataset & Meta data
Research records
과학 데이터 정의 및 특징
Data Management Plan
Data Journal
과학의 신뢰와
DMP-ProRR
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
69. • 과학의 신뢰
• DMP-ProRR : Data Management Plan for Products based
on Research Resources
69제 17회 연구소재은행 교육프로그램 / 곤지암리조트
70. 과학의 신뢰 (1/3)
Source :
https://www.theguardian.com/science/blog/2013/jun/05/trust-in-
science-study-pre-registration
In an ideal world, scientific discoveries would be
independent of what scientists wanted to discover. A
good researcher would
begin with an idea,
devise a method to test the idea,
run the study as planned, and then
decide based on the evidence
whether the idea had been supported. Following this
approach would lead us step-by-step toward a better
understanding of nature.
Publish or perish
Trust in Science
Study pre-registration??
70제 17회 연구소재은행 교육프로그램 / 곤지암리조트
71. 과학의 신뢰 (2/3)
Reproducible science is stronger science.
약한 과학이란 무엇일까요?
연구 윤리
Center for Open Science
https://cos.io/stats_consulting/
http://www.indiana.edu/~ensiweb/is.ev.wk.pdf
71
Reproducible science needs Research Resources.
연구 재현을 위해서는 연구 소재 공급이 필요할 수 있다.
일관된 연구 소재 확보는 연구윤리 측면에서 반드시 필요하다.
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
72. 과학의 신뢰 (3/3)
“If they do a press release on an observational study, they should
state the limitations prominently – generally that causality can’t
be inferred, that findings from observational research often are
not reproduced in clinical trials,”
Source : https://www.timeshighereducation.com/news/journals-give-more-publicity-
weak-science
Scientists often bemoan journalists’
shoddy reporting of research findings.
A Study without data makes weak science.
Reproducible science is stronger science.
Reproducible science needs Research Data
Research Resources are Research Data.
Research Resources are good trigger for Open Science.
72제 17회 연구소재은행 교육프로그램 / 곤지암리조트
73. 소재 보존 관리
• 고유의 특성 변질 및 오염
• 법정 보존 기한 초과
• 천재지변
• 소재 품질의 유지 >>
동일 수준의 소재 제공 >>
연구 재현, Open Science 구현
• 소재의 보존위치 파악
= 연구素材의 所在 정보
= location Info.
73
소재보존의 표준화
소재 중복 보존
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
74. DMP-ProRR
• Data Management Plan
for Products based on Research Resources
74
DMP-ProRR
Data Citation
Metadata Schema
Archiving & Preservation Guideline
Metadata Acquition
Data & article
Inter-linking service
Data Publishing
Data
RepositoriesColleciton
Services
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
76. 소재 기탁 관리
• Data Provenance
• 소재 관리번호 체계와 식별자
76
소재고유번호
제 17회 연구소재은행 교육프로그램 / 곤지암리조트
77. 못다한 이야기: 빅데이터 유래
• 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English Dictionary)” 이란 용어 사용
• October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for
out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with
“Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities
of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital
library to use the term “big data.”
• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled
• “Big Data Dynamic Factor Models for Macroeconomic Measurement
and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has
been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all
storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital
information storage surpassed non-digital for the first time).
• February 2010 Kenneth Cukier “Data, data everywhere.”
“…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect
is being felt everywhere, from business to science, from governments to the arts. Scientists and computer
engineers have coined a new term for the phenomenon: ‘big
data.’”
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 77
78. 못다한 이야기:
Big Data vs. Difficult Data
제 17회 연구소재은행 교육프로그램 / 곤지암리조트 78