WikiDer > Извлечение данных
Эта статья в значительной степени или полностью полагается на один источник. (Август 2020 г.) |
Извлечение данных это акт или процесс извлечения данные вне (обычно неструктурированный или плохо структурированные) источники данных для дальнейшего обработка данных или же хранилище данных (перенос данных). В импорт в промежуточную вытяжную систему обычно следует преобразование данных и, возможно, добавление метаданные до экспорт на другой этап в данных рабочий процесс.
Обычно термин извлечение данных применяется, когда (экспериментальный) данные сначала импортируются на компьютер из первичных источников, например измерение или же записывающие устройства. Сегодняшний электронные устройства обычно представляет электрический разъем (например. USB) через который 'необработанные данные' возможно потоковое в персональный компьютер.
Источники данных
Типичные источники неструктурированных данных включают: веб-страница, электронные письма, документы, PDF-файлы, отсканированный текст, отчеты на мэйнфрейме, файлы спула, объявления и т. д., которые в дальнейшем используются для потенциальных клиентов по продажам или маркетингу. Извлечение данных из этих неструктурированных источников превратилось в серьезную техническую задачу, поскольку, поскольку исторически извлечение данных приходилось иметь дело с изменениями в физических аппаратных форматах, большая часть текущего извлечения данных связана с извлечением данных из этих неструктурированных источников данных и из различных форматов программного обеспечения. . Этот растущий процесс извлечения данных[1] из Интернета называется «извлечением веб-данных» илиВеб-скрапинг".
Впечатляющая структура
Процесс добавления структуры к неструктурированным данным принимает несколько форм.
- Использование текста сопоставление с образцом Такие как обычные выражения для определения небольших или крупных структур, например записи в отчете и связанные с ними данные из верхних и нижних колонтитулов;
- Использование табличного подхода для определения общих разделов в ограниченном домене, например в резюме, отправленном по электронной почте, с указанием навыков, предыдущего опыта работы, квалификации и т. д. с использованием стандартного набора часто используемых заголовков (они будут отличаться от языка к языку), например Образование можно найти в разделе "Образование / Квалификация / Курсы";
- С помощью текстовая аналитика попытаться понять текст и связать его с другой информацией