WikiDer > Справка: Экспорт - Википедия
Эта справочная страница является практическое руководство. В нем подробно описаны процессы или процедуры некоторых аспектов норм и практики Википедии. Это не один из Политика или рекомендации Википедии, и может отражать разные уровни консенсус и проверка. |
Связывание и манипулирование страницей |
---|
Расщепление |
Вики-страницы можно экспортировать в специальный XML форматировать импорт в другую установку MediaWiki или использовать в других целях, например, для анализа содержимого. Смотрите также m: каналы синдикации для экспорта всей другой информации, кроме страниц, и см. Справка: Импорт об импорте страниц.
Как экспортировать
Есть как минимум шесть способов экспортировать страницы:
- Вставьте название статей в поле в Special: экспорт или используйте https://en.wikipedia.org/wiki/Special:Export/FULLPAGENAME.
- Использовать
действие = сырье
. (При этом выбирается только викитекст страницы, а не формат XML, описанный ниже.) Например: https://en.wikipedia.org/w/index.php?title=Wikipedia&action=raw .. важно использовать/w/index.php?title=PAGENAME&action=raw
и нет/ wiki / PAGENAME? action = raw
(видеть Phab T126183) - Используйте API для получения данных в упаковке XML или JSON
- Скрипт резервного копирования dumpBackup.php выгружает все страницы вики в файл XML. dumpBackup.php работает только в MediaWiki 1.5 или новее. У вас должен быть прямой доступ к серверу для запуска этого скрипта. Дампы проектов mediawiki (более или менее) регулярно доступны по адресу http://download.wikipedia.org. Дополнительная помощь находится на http://www.mediawiki.org/wiki/Manual:DumpBackup.php
- Существует OAI-PMH-интерфейс для регулярного получения страниц, которые были изменены с определенного времени. Для проектов Викимедиа этот интерфейс не является общедоступным. OAI-PMH содержит формат оболочки вокруг фактических экспортируемых статей.
- Использовать Робот-фреймворк Python Wikipedia. Здесь это не объясняется.
По умолчанию включается только текущая версия страницы. При желании вы можете получить все версии с датой, временем, именем пользователя и редактировать сводку.
Дополнительно вы можете скопировать базу данных SQL. Вот как были сделаны дампы базы данных до MediaWiki 1.5, и здесь это объяснять не будет.
Использование 'Special: Export'
Экспортировать все страницы пространства имен, Например.
1. Получите имена страниц для экспорта.
- Идти к Special: Allpages и выберите желаемое пространство имен.
- Скопируйте список названий страниц в текстовый редактор
- Поместите все названия страниц в отдельные строки
- Приставьте к пространству имен префикс к именам страниц (например, «Help: Contents»), если только выбранное пространство имен не является основным пространством имен.
2. Выполните экспорт
- Идти к Special: экспорт и вставьте все имена своих страниц в текстовое поле, убедившись, что нет пустых строк.
- Нажмите "Отправить запрос".
- Сохраните полученный XML в файл, используя функцию сохранения вашего браузера.
и наконец...
- Откройте XML-файл в текстовом редакторе. Прокрутите вниз до проверьте сообщения об ошибках.
Теперь вы можете использовать этот XML-файл для выполнить импорт.
Экспорт полной истории
Флажок в Special: экспорт Интерфейс выбирает, экспортировать ли полную историю (все версии статьи) или самую последнюю версию статей. Возвращается максимум 1000 ревизий; другие изменения могут быть запрошены, как описано в MW: Параметры для Special: Export.
Формат экспорта
Формат получаемого XML-файла во всех отношениях одинаков. Этот формат зашифрован в Схема XML в http://www.mediawiki.org/xml/export-0.6.xsd. Этот формат не предназначен для просмотра в веб-браузере, хотя некоторые браузеры показывают вам красиво напечатанный XML со ссылками «+» и «-» для просмотра или скрытия выбранных частей. В качестве альтернативы XML-источник можно просмотреть, используя функцию «просмотра исходного кода» браузера, или после локального сохранения XML-файла с помощью выбранной программы. Если вы непосредственно читаете исходный XML-код, найти настоящий вики-текст не составит труда. Если вы не используете специальный редактор XML, символы «<» и «>» отображаются как & lt; и & gt ;, чтобы избежать конфликта с тегами XML; чтобы избежать двусмысленности, «&» кодируется как «& amp;».
В текущей версии формат экспорта не содержит XML-замену вики-разметки (см. Википедия DTD для более раннего предложения или Язык разметки вики). Вы получаете только тот викитекст, который получаете при редактировании статьи. (После экспорта вы можете использовать альтернативные парсеры конвертировать вики-текст в другой формат)
Пример
xml: lang ="en"> <page> <title>Заголовок страницы</title> <!-- page namespace code --> <ns>0</ns> <id>2</id> <!-- If page is a redirection, element "redirect" contains title of the page redirect to --> <перенаправление title ="Заголовок страницы перенаправления" /> <restrictions>изменить = сисоп: переместить = сисоп</restrictions> <revision> <timestamp>2001-01-15T13: 15: 00Z</timestamp> <contributor> <username>Foobar</username> <id>65536</id> </contributor> <comment>Мне нужно сказать только одно!</comment> <text>Куча [[текст]] здесь.</text> <второстепенный /> </revision> <revision> <timestamp>2001-01-15T13: 10: 27Z</timestamp> <contributor><ip>10.0.0.2</ip></contributor> <comment>новый!</comment> <text>Более ранняя [[версия]].</text> </revision> <revision> <!-- deleted revision example --> <id>4557485</id> <parentid>1243372</parentid> <timestamp>2010-06-24T02: 40: 22Z</timestamp> <участник удалено ="удалено" /> <model>wikitext</model> <format>текст / x-wiki</format> <текст удалено ="удалено" /> <sha1/> </revision> </page> <page> <title>Обсуждение: Название страницы</title> <revision> <timestamp>2001-01-15T14: 03: 00Z</timestamp> <contributor><ip>10.0.0.2</ip></contributor> <comment>Привет</comment> <text>ПОЧЕМУ ВЫ БЛОКИРУЕТЕ СТРАНИЦУ ?? !!! я редактировал этот придурок</text> </revision> </page> </mediawiki>
DTD
Вот неофициальная, короткая Определение типа документа версия формата. Если вы не знаете, что такое DTD, просто игнорируйте его.
<!ELEMENT mediawiki (siteinfo?,page*)><!-- version contains the version number of the format (currently 0.3) --> версия CDATA № ТРЕБУЕТСЯ xmlns CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/" xmlns: xsi CDATA #FIXED "http://www.w3.org/2001/XMLSchema-instance" xsi: schemaLocation CDATA #FIXED "http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd"><!ELEMENT siteinfo (sitename,base,generator,case,namespaces)><!ELEMENT sitename (#PCDATA)> <!-- name of the wiki --><!ELEMENT base (#PCDATA)> <!-- url of the main page --><!ELEMENT generator (#PCDATA)> <!-- MediaWiki version string --><!ELEMENT case (#PCDATA)> <!-- how cases in page names are handled --> Параметр "без учета регистра" зарезервирован на будущее -><!ELEMENT namespaces (namespace+)> <!-- list of namespaces and prefixes --> <!ELEMENT namespace (#PCDATA)> <!-- contains namespace prefix --> <!ATTLIST namespace key CDATA #REQUIRED> <!-- internal namespace number --><!ELEMENT page (title,id?,restrictions?,(revision|upload)*)> <!ELEMENT title (#PCDATA)> <!-- Title with namespace prefix --> <!ELEMENT id (#PCDATA)> <!ELEMENT restrictions (#PCDATA)> <!-- optional page restrictions --><!ELEMENT revision (id?,timestamp,contributor,minor?,comment,text)> <!ELEMENT timestamp (#PCDATA)> <!-- according to ISO8601 --> <!ELEMENT minor EMPTY> <!-- minor flag --> <!ELEMENT comment (#PCDATA)> <!ELEMENT text (#PCDATA)> <!-- Wikisyntax --> <!ATTLIST text xml:space CDATA #FIXED "preserve"><!ELEMENT contributor ((username,id) | ip)> <!ELEMENT username (#PCDATA)> <!ELEMENT ip (#PCDATA)><!ELEMENT upload (timestamp,contributor,comment?,filename,src,size)> <!ELEMENT filename (#PCDATA)> <!ELEMENT src (#PCDATA)> <!ELEMENT size (#PCDATA)>
Обработка экспорта XML
Многие инструменты могут обрабатывать экспортированный XML. Если вы обрабатываете большое количество страниц (например, весь дамп), вы, вероятно, не сможете получить документ в основной памяти, поэтому вам понадобится парсер на основе SAX или другие методы, управляемые событиями.
Вы также можете использовать регулярные выражения для прямой обработки частей XML-кода. Они работают быстро, но их сложно обслуживать.
Перечислите здесь методы и инструменты для обработки экспорта XML:
- Разбор :: MediaWikiDump это модуль Perl для обработки файла дампа XML.
- m: Обработка MediaWiki XML с помощью STX - Потоковое преобразование XML
Подробности и практические советы
- Чтобы определить пространство имен страницы, вы должны сопоставить ее заголовок с префиксом, определенным в
/ mediawiki / siteinfo / пространства имен / пространство имен
- Возможные ограничения:
- сисоп (защищенные страницы)
Смотрите также
- mw: Справка: Как переместить вики на другой сервер
- mw: Руководство: Moving_a_wiki
- Википедия: статус создателя книги Википедии
- Справка: мобильный доступ
- Справка: просмотр мультимедиа
- Википедия: Разговорные статьи
- Википедия: FAQ / Читатели
- Википедия: руководство по Википедии
- Википедия: исследования с помощью Википедии
- Википедия: цитирование Википедии
Справка по Википедии
- Википедия: WikiProject Transwiki / экспорт - инструкции по экспорту всей истории статьи из Википедии.