Question

Я пытаюсь проанализировать большие документы HTML и извлечь из них информацию, чтобы я мог создавать документы JSON только с теми данными, которые мне нужны. В настоящее время я использую Nokogiri :: HTML :: SAX :: Parser для анализа HTML-документа, и он отлично работает; но чтобы ускорить процесс, я хотел бы использовать что-то ближе к Nokogiri :: XML :: SAX :: PushParser , чтобы я мог начать анализ во время загрузки документа HTML.

Я пытался поиграть с Nokogiri, чтобы добавить парсер HTML SAX с PushParser, но он продолжает выдавать мне синтаксические ошибки, потому что он все еще обрабатывает входной документ как XML. Может быть, есть веская причина, по которой вы не можете использовать подход push-парсера с HTML из-за некорректных тегов и т. Д., Но мне было интересно, есть ли способ использовать PushParser Nokogiri с документами HTML?

Mark Thomas · Answer 1 · 19 августа 2013

В декабре 2011 года Nokogiri добавила HTML Push Parser .Поэтому я полагаю, что это отвечает на вопрос, возможно ли это.

Можно ли создать push-парсер HTML с Nokogiri?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли создать push-парсер HTML с Nokogiri?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы