HTML-парсер на чистом JavaScript

Опубликовано:: 2008-05-06

Автор небезызвестной JavaScript-библиотеки jQuery Джон Резиг написал HTML-парсер на чистом JavaScript.

Обработка всех возможных ошибок HTML не заявляется, однако в большинстве случаев библиотека даёт на выходе вполне корректный XHTML, отлично справляясь с наиболее частыми и очевидными из них, например:

отсутствие закрывающих тегов:: Hello → Hello
отсутствие закрывающего слэша в «самозакрывающихся» элементах:: <img src=test.jpg> → <img src="test.jpg"/>
незакрытый строчный элемент перед блочным:: Hello John → Hello John
отсутствие закрывающих тегов у элементов, для которых это допустимо в HTML4:: HelloWorld → HelloWorld
булевы атрибуты (флаги):: <input disabled> → <input disabled="disabled"/>
ошибочный порядок закрывающих тегов вложенных элементов:: example → example

Попробовать библиотеку в действии можно на демо-странице.

Размер JS-файла без сжатия — чуть более 8 КБ.

Комментарии

S-Nors 2008-06-08

jQuery - 8 kb?
Marat Tanalin (автор) 2008-06-08

S-Nors: HTML-парсер — отдельный продукт, на настоящий момент связанный с jQuery только именем автора.
Marat Tanalin (автор) 2012-03-26

Clickos: В общем случае достаточно встроенных возможностей браузера для работы с DOM, и именно их следует использовать. На практике разбор HTML-кода средствами JavaScript может потребоваться лишь в редких случаях, и описанная библиотека представляет в основном академический интерес.
3V 2013-08-08

На самом деле интерес может и совсем не академическим быть.
Например, я плагин для мозиллы делаю с достаточно развитым интерфейсом (XUL).
Там с удаленного сервера забираются html-страницы. Т.е. это страницы реального сайта. И с них надо выкуривать текст (без разметки)
Так вот, сделать что-то вроде:
var oDiv = document.createElement('DIV');
oDiv.innerHTML = strHTML;
var strText = oDiv.textContent;
не получается. textContent пустой.
Насколько я понимаю, это из-за ограничений безопасности. Пробовал создавать documentFragment, в нем элемент - одна фигня.

Погуглил вот, попал сюда. Отсюда - на сайт автора. А там и либа нужная. Короче, завтра буду тестить. Ну или заточу под себя.
Так что полезная штука то.
Marat Tanalin (автор) 2013-08-09

3V: Вероятно, вы пытаетесь вставлять HTML-код в XUL-документ, подчиняющийся правилам XML и свойство innerHTML не поддерживающий.

Попробуйте использовать временный HTML-документ, создав его с помощью метода document.implementation.createHTMLDocument().
3V 2013-08-12

Хм, спасибо, попробую :)
Честно говоря, плагины для мозиллы - совсем не моя специализация. Работа в основном с C++ связана.

А библиотечку я опробовал. К сожалению, не подошла. Она затыкается на сложных (реальных) документах. В частности, не выкуривает вещи вроде таких:
<script type="text/javascript">
<![CDATA[//><!]]>
</script>
В функцию-обработчик для получения текстовых фрагментов, закидывает код тела скрипта. Правда не всегда вроде.

Но у меня задача состояла в только том, чтобы объем текста оценить. Поэтому поиском через регэкспы и заменами на регэкспах убрал вхождения скриптов, стилей, тегов, позаменял htmlentities всякие, а также штуки вроде &#…; и &#x…;. Вроде работает.