WikiDer > Сравнение парсеров HTML - Википедия
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Парсеры HTML программное обеспечение для автоматизированных Язык гипертекстовой разметки (HTML) разбор. У них есть две основные цели:
- Обход HTML: предлагает программистам интерфейс для легкого доступа и изменения «строкового кода HTML». Канонический пример: Парсеры DOM.
- Чистый HTML: исправить неверный HTML и улучшить макет и стиль отступа итоговой разметки. Канонический пример: HTML Tidy.
Парсер | Лицензия | Язык (и) реализации | Последняя дата * | Разбор HTML[1] | HTML5-совместимый синтаксический анализ | Чистый HTML ** | Обновить HTML *** |
---|---|---|---|---|---|---|---|
HTML Tidy | Лицензия W3C | ANSI C | 2017-03-01[2] | да[3] | да | да[3] | да |
HtmlUnit | Лицензия Apache 2.0 | Ява | 2019-08-24[4] | да | ? | Нет | Нет |
libxml2 HTMLparser | Лицензия MIT | C | 2017-11-02[5] | да | Нет | ? | ? |
Парсер | Лицензия | Язык (и) реализации | Последняя дата * | HTML парсинг | HTML5-совместимый синтаксический анализ | Чистый HTML ** | Обновить HTML *** |
- * Дата последнего выпуска (существенных изменений).
- ** дезинфицировать (создание стандартных веб-страниц, уменьшение спама и т. д.) и чистый (удалите лишние презентационные теги, удалите код XSS и т. д.) HTML-код.
- *** Обновляет HTML4.X до XHTML или HTML5, преобразуя устаревшие теги (например, CENTER) в допустимые (например, DIV с style = "выравнивание текста: центр;").