Я пытаюсь проанализировать большие документы HTML и извлечь из них информацию, чтобы я мог создавать документы JSON только с теми данными, которые мне нужны. В настоящее время я использую Nokogiri :: HTML :: SAX :: Parser для анализа HTML-документа, и он отлично работает; но чтобы ускорить процесс, я хотел бы использовать что-то ближе к Nokogiri :: XML :: SAX :: PushParser , чтобы я мог начать анализ во время загрузки документа HTML.
Я пытался поиграть с Nokogiri, чтобы добавить парсер HTML SAX с PushParser, но он продолжает выдавать мне синтаксические ошибки, потому что он все еще обрабатывает входной документ как XML. Может быть, есть веская причина, по которой вы не можете использовать подход push-парсера с HTML из-за некорректных тегов и т. Д., Но мне было интересно, есть ли способ использовать PushParser Nokogiri с документами HTML?