У меня есть коллекция документов, которые я пытаюсь разобрать. Как и HTML, они довольно хорошо структурированы и имеют сложный синтаксис / грамматику. Как и HTML, многие документы не полностью соответствуют требуемому синтаксису.
У меня вопрос: какие общие стратегии используют браузеры и библиотеки синтаксического анализа HTML / XML при анализе документов, которые строго не соответствуют правильному синтаксису? Кажется, они хорошо справляются с неуместными или отсутствующими метками. И я уверен, что есть и другие ситуации, такие как теги с ошибками, неправильные атрибуты и т. Д., С которыми нужно иметь дело, а не просто игнорировать.