연구데이터
연구데이터란 연구 결과를 만들어 내기 위해 분석을 목적으로 수집, 관찰 또는 연구
과정 중 생산되는 모든 데이터를 말합니다.
- Observational Data (관측 및 관찰 데이터)
- Experimental Data (실험 데이터)
- Simulation Data (시뮬레이션 데이터)
- Derived/Complied Data (추출/컴파일 데이터)
연구데이터 관리가 중요한 이유는 연구자 개인의 필요 뿐 아니라 연구 진실성 검증을
위해서, 또한 연구비 지출의 효율성을 제공하고자 하는 연구비 지원기관의 정책을 만족시키기 위해서도 꼭 필요합니다.
- 국가 R&D 사업으로 생산된 연구데이터는 공유·공개 되어야 합니다.
- 공적 자금을 통해 수행된 연구에서 나온 과학 데이터를 공개하는 것이 오픈사이언스(Open Science)가
나아가야 할 방향입니다.
- 연구데이터를 체계적으로 수집·공유·공개 하면 데이터에 기반한 융합 및 공동 연구를 활성화할 수 있습니다.
- 또한 데이터를 공개한 논문의 경우 그렇지 않은 유사한 주제의 논문보다 9%~30% 더 많이 인용된다는 연구
결과도 있습니다.
연구데이터 관리를 통해 얻을 수 있는 효과는 데이터 재사용성을 보장하는 체계적인
관리를 통해 다음과 같은 이점이 있습니다.
- 안전하게 저장 및 보관할 수 있습니다.
- 언제든 필요할 때 찾아보거나 타 연구자와 공유할 수 있습니다.
- 불필요한 중복 작업을 피할 수 있습니다.
- 필요에 따라 연구 결과를 검증할 수 있습니다.
- 연구에 대한 가시성을 확보하고 영향력을 높임으로써 연구비지원기관의 요구사항을 만족시킵니다.
데이터관리계획 (DMP)
데이터관리계획이란 연구개발 과제 기획 시 연구 결과로 생성되는 연구데이터의 관리, 공유 및
활용을 위한 데이터 관리계획을 말합니다.
- 연구과제를 통해 생산되는 데이터의 개요, 관리, 공유 계획을 담고 있는 1~2 쪽 분량의 문서로 연구과제
전반에 걸쳐 수행할 작업에 대한 청사진입니다.
- 연구자들에게 데이터의 체계적인 관리와 공유 의무에 대한 인식을 고취시키는 중요한 계기가 될 수 있습니다.
- 또한, 국가 또는 기관 차원에서 수행된 연구개발 과제로부터 생산되는 데이터 현황을 파악할 수 있습니다.
데이터관리계획을 통해 얻을 수 있는 효과는 데이터 수명주기 전반에 걸쳐 효과적인 관리를
통해 다음과 같은 이점이 있습니다.
- 연구비지원기관으로부터 보조금 지원 요건을 충족할 수 있습니다.
- 계획을 통해 데이터 손실 및 불필요한 중복 작업을 최소화할 수 있어 효율적인 연구가 가능합니다.
- 사업 완료 후 공유시점에 수행할 작업을 예측할 수 있습니다.
- 장기적으로 시간과 비용을 절약할 수 있습니다.
연구데이터 수명주기 관점에서의 DMP 설계를 통해 연구과제 수행기간 동안 발생할 잠재적인
관리 문제를 해결할 수 있습니다.
- 데이터 생성 → 데이터 문서화 → 데이터 사용 → 데이터 저장 및 백업
→ 데이터 공유 → 데이터 보존
DataWorks 는
DataWorks(연구데이터 리포지터리)는 연구데이터 수명주기 전반에 걸쳐 생산되는 디지털화된
연구데이터를 수명주기 단계별로 서비스를 제공하는 연구데이터 리포지터리 플랫폼입니다.
- 연구데이터를 체계적으로 보존 및 공유, 재사용할 수 있는 효율적인 연구데이터 활용 환경을 제공합니다.
- 또한, 데이터관리계획의 작성 및 관리기능을 제공하여 연구데이터 수명주기 전반에 걸친 관리체계를 구축할 수
있습니다.
DataWorks는 FAIR*원칙에 입각한
서비스를 제공하여 연구데이터의 사용성과 영향력을 개선할 수 있습니다.
- Findable (검색 가능) → 영구적인 식별자(DOI)를 부여하며 연구데이터를 검색할 수
있습니다.
- Accessible (접근 가능) → 범용 프로토콜 기반으로 사용자 인증 및 권한에 따라 데이터를
제공합니다.
- Interoperable (상호 운용 가능) → 메타데이터 표준(DC)에 맞는 데이터를 제공하며
데이터간 관계를 설정할 수 있습니다.
- Reuseable (재사용 가능) → 메타데이터 라이선스 및 출처를 명시함으로써 타 연구자에 의해
활용될 수 있습니다.
❖ 공정(FAIR) 데이터란 2016년 사이언티픽데이터 (Scientific Data)에서 제안된 오픈데이터
전략인 FAIR 원칙에 따라 Findable, Accessible, Interoperable, Reuseable의 표준에
상응하는 데이터를 지칭합니다. ( 관련사이트 : https://www.go-fair.org/ )
❖ FAIR 원칙은 개인이 데이터를 재사용할 수 있도록 지원하는 것 외에도 기계가 데이터를 자동으로 찾고 사용
능력을 향상하는데 중점을 두고 있습니다.
DataWorks를 통해 얻을 수 있는 효과는 다음과 같습니다.
- 연구데이터 수명주기 전반에 걸친 관리체계를 손쉽게 구축할 수 있습니다.
- 연구데이터의 개방과 공유를 통해 중복을 최소화 함으로써 연구개발의 효율성을 증대할 수 있습니다.
- 공공 부문 클라우드 전환에 발맞춰 무상으로 활용이 가능한 오픈소스 기반 구축을 통해 특정 SW 종속성을
탈피하여 개방성 증가와 비용 절감을 통해 경쟁력을 확보할 수 있습니다.