WikiDer > Курирование данных
Курирование данных это организация и интеграция данные собраны из разных источников. Он включает аннотацию, публикацию и представление данных, так что ценность данных сохраняется с течением времени, а данные остаются доступными для повторного использования и сохранения. Курирование данных включает в себя «все процессы, необходимые для принципиальных и контролируемые данные создание, обслуживание и управлениевместе со способностью повышать ценность данных ".[1] В науке курирование данных может указывать на процесс извлечения важной информации из научных текстов, таких как исследовательские статьи экспертов, для преобразования в электронный формат, например, в биологическая база данных.[2]
В современную эпоху большое количество данных, обработка данных стала более заметной, особенно для программного обеспечения обработка больших объемов и сложных систем данных.[3] Этот термин также используется в исторических случаях и в гуманитарных науках,[4] где растут культурные и научные данные из цифровые гуманитарные науки проекты требуют опыта и аналитических практик курирования данных.[5] В широком смысле курирование означает ряд действий и процессов, выполняемых для создания, управления, поддержки и подтверждать а составная часть.[6] В частности, курирование данных - это попытка определить, какую информацию стоит сохранять и как долго.[7]
История и практика
В пользователь, а не сама база данных, обычно инициирует курирование данных и поддерживает метаданные.[8] Согласно Университет Иллинойса«Высшая школа библиотечных и информационных наук»: «Курирование данных - это активное и непрерывное управление данными на протяжении всего их жизненного цикла, представляющее интерес и полезность для науки, науки и образования; курирование позволяет обнаруживать и извлекать данные, поддерживать качество, добавлять ценность , и предусматривать возможность повторного использования с течением времени ".[9] Рабочий процесс курирования данных отличается от Качество данных менеджмент защита данных, управление жизненным циклом и перемещение данных.[8]
Данные переписи были доступны в виде перфокарт в виде таблиц с начала 20-го века и были в электронном виде с 1960-х годов.[10] В Межуниверситетский консорциум политических и социальных исследований (ICPSR) веб-сайт отмечает 1962 год как дату их первого архива данных исследований.[11]
Подробная информация о библиотеках данных появилась в выпуске журнала Illinois за 1982 год. Библиотечные тенденции.[12] Историческую справку о движении архивов данных см. В статье «Потребности в социальной научной информации для числовых данных: эволюция инфраструктуры международных архивов данных».[13] Точный процесс курирования, осуществляемый в любой организации, зависит от объема данных, количества шума, содержащегося в данных, и того, что ожидаемое будущее использование данных означает для их распространения.[3]
Кризис космических данных привел к созданию в 1999 г. Открытая архивная информационная система (OAIS) модель,[14] под управлением Консультативный комитет по системам космических данных (CCSDS), который был образован в 1982 году.[15]
Термин «курирование данных» иногда используется в контексте биологические базы данных, где конкретная биологическая информация сначала получается из ряда исследовательских статей, а затем сохраняется в базе данных определенной категории. Например, информацию об антидепрессантах можно получить из различных источников, и после проверки того, доступны ли они в виде базы данных, они сохраняются в категории антидепрессивных препаратов базы данных. Предприятия также используют курирование данных в своих операционных и стратегических процессах для обеспечения качества и точности данных.[16][17]
Проекты и исследования
В рамках проекта «Пакеты распространения информации для повторного использования информации» (DIPIR) изучаются данные исследований, подготовленные и используемые учеными, занимающимися количественными исследованиями в области социальных наук, археологами и зоологами. Целевая аудитория - исследователи, которые используют вторичные данные, и кураторы цифровых данных, менеджеры цифровых репозиториев, персонал центров обработки данных и другие лица, которые собирают, управляют и хранят цифровую информацию.[18]
В Банк данных белков была основана в 1971 г. Брукхейвенская национальная лаборатория, и превратился в глобальный проект.[19] База данных трехмерных структурных данных белков и других крупных биологических молекул, PDB содержит более 120000 структур, все стандартизированные, проверенные на соответствие экспериментальным данным и аннотированные.
FlyBase, основной репозиторий генетических и молекулярных данных о семействе насекомых Drosophilidae, восходит к 1992 году. FlyBase аннотирует все Drosophila melanogaster геном.[20]
В Консорциум лингвистических данных является хранилищем лингвистических данных, начиная с 1992 года.[21]
В Sloan Digital Sky Survey начал съемку ночного неба в 2000 году.[22] Специалист в области информатики Джим Грей, работая над архитектурой данных SDSS, отстаивал идею курирования данных в науке.[23]
DataNet была исследовательской программой Управления киберинфраструктуры Национального научного фонда США, финансирующей проекты управления данными в науке.[24] DataONE (Сеть наблюдения за данными для Земли) - один из проектов, финансируемых через DataNet, помогая сообществу ученых-экологов сохранять и обмениваться данными.[25]
Смотрите также
- Биокуратор
- Археология данных
- Ухудшение данных
- Управление форматом данных
- Сохранение данных
- Управление данными
- Обработка данных
- Цифровое курирование - курирование опубликованных документов, а не необработанных данных[7]
- Цифровое сохранение
- Информационист - специалист с обширным опытом в курировании данных
Рекомендации
- ^ Рене Дж. Миллер, «Курирование больших данных» на 20-й Международной конференции по управлению данными (COMAD) 2014 г., Хайдарабад, Индия, 17–19 декабря 2014 г.
- ^ Био творческий глоссарий. Проверено 3 октября, 2016.
- ^ а б Фурхт, Борко; Армандо Эскаланте (2011). Справочник по интенсивным вычислениям. Springer Science & Business Media. п. 32. ISBN 9781461414155. Получено 2 октября 2016.
- ^ Сабхарвал, Арджун (2015). Цифровое курирование в цифровых гуманитарных науках: сохранение и популяризация архивных и специальных коллекций. Издательство Чандос. п. 60. ISBN 9780081001783. Получено 2 октября 2016.
- ^ «Введение в курирование гуманитарных данных» Джулия Фландерс и Тревор Муньос http://guide.dhcuration.org/intro/. Больше не доступно: archive.org
- ^ Глоссарий Пилина. Больше не доступно: archive.org
- ^ а б Боргман, C (2015). Большие данные, мало данных, нет данных: стипендия в сетевом мире. Кембридж, Массачусетс: MIT Press. стр.13. ISBN 978-0-262-02856-1.
- ^ а б Чессел, Мэнди; Найджел Л. Джонс; Джей Лимберн; Дэвид Рэдли; Кевин Шэнк (2015). Проектирование и эксплуатация резервуара данных. IBM Redbooks. С. 111–113. ISBN 9780837440668. Получено 2 октября 2016.
- ^ Крагин, Мелисса; Хайдорн, П. Брайан; Палмер, Кэрол Л .; Смит, Линда С. (2007). «Образовательная программа по курированию данных». Конференция секции науки и технологий ALA. Получено 7 октября 2013.
- ^ Отчет «Сохранение цифровой информации (PDI)» (PDF). 1996. Получено 2018-03-13.
- ^ «МЦПИР: История». www.icpsr.umich.edu. Получено 2018-03-15.
- ^ Хайм, Кэтлин М. (редактор), Библиотечные тенденции 30 (3) Зима 1982: библиотеки данных для социальных наук. Высшая школа библиотечного дела и информатики. Университет Иллинойса в Урбане-Шампейн.
- ^ Кэтлин М. Хайм, "Социально-научная информационная потребность в числовых данных: эволюция инфраструктуры международных архивов данных". в Управление коллекциями 9 (весна 1987 г.): 1-53.
- ^ «Эталонная модель OAIS». 2015-12-09. Получено 2018-03-15.
- ^ "CCSDS.org - Консультативный комитет по системам космических данных (CCSDS)". public.ccsds.org. Получено 2018-03-14.
- ^ Э. Карри, А. Фрейтас и С. О’Риайн, «Роль управления данными для предприятий», В архиве 2012-01-23 в Wayback Machine in Linking Enterprise Data, D. Wood, Ed. Бостон, Массачусетс: Springer US, 2010, стр. 25-47. ISBN 978-1-4419-7664-2
- ^ А. Фрейтас, Э. Карри, «Курирование больших данных», В архиве 2016-09-13 в Wayback Machine в «Новые горизонты экономики, основанной на данных», Springer (открытый доступ), 2015 г.
- ^ Проект "Пакеты распространения информации для повторного использования информации" (ДИПИР) http://www.oclc.org/research/themes/user-studies/dipir.html
- ^ «RCSB PDB: об архиве PDB и RCSB PDB». Об архиве PDB и RCSB PDB. Получено 15 марта 2018.
- ^ Грамат, LS; Мэриголд, SJ; душ Сантуш, G; Урбано, JM; Antonazzo, G; Мэтьюз, BB; Рей, AJ; Табоне, CJ; Кросби, Массачусетс; Эммерт, ДБ; Водопад, К; Гудман, JL; Ху, Y; Понтинг, L; Schroeder, AJ; Стрелец, ВБ; Thurmond, J; Чжоу, П; Консорциум FlyBase (2017). "lyBase в 25: взгляд в будущее". Нуклеиновые кислоты Res. 45 (D1): D663 – D671. Дои:10.1093 / нар / gkw1016. ЧВК 5210523. PMID 27799470.
- ^ «О LDC». Консорциум лингвистических данных. Получено 15 марта 2018.
- ^ "Sloan Digital Sky Survey". SDSS. Получено 15 марта 2018.
- ^ Палмер, Кэрол Л .; Вебер, Николас М .; Муньос, Тревор; Ренар, Аллен Х. (июнь 2013 г.). «Основы курации данных: педагогика и практика« целенаправленной работы »с исследовательскими данными». Архив журнала. 3. HDL:2142/78099.
- ^ «Резюме программы партнеров по устойчивому сохранению цифровых данных и доступа к сети (DataNet)». Национальный фонд науки. 28 сентября 2007 г.. Получено 15 марта, 2018.
- ^ "Что такое DataONE?". Что такое DataONE?. Получено 15 марта 2018.
внешняя ссылка
- Обработка экологических и экологических данных: DataONE
- Инструменты и сервисы для управления данными, охватывающие несколько научных дисциплин: DataConservancy