Как сделать проверку орфографии в HTML и XML? - PullRequest
9 голосов
/ 06 апреля 2011

Я должен выполнить проверку орфографии для большого количества больших HTML и XML-документов (более 30 000).Мне также нужен собственный словарь и сложные алгоритмы проверки.Я пытаюсь использовать BASH + утилиту linux (sed, grep, ...) с hunspell.Hunspell имеет опцию -H, которая заставляет его проверять документ как HTML (для XML эта опция также подходит).Но есть одна проблема: он выводит смещения, а не номер строки, и он может проверять строку за строкой, потому что в этом случае он смотрит внутрь тегов (он не может найти закрытый тег).Итак, как правильно сделать задачу?

Ответы [ 2 ]

7 голосов
/ 16 мая 2012

У меня только что была похожая проблема .Вы должны быть в состоянии получить хороший результат, используя эти недокументированные ключи, например, -u или -U.Но будьте осторожны, так как эти функции кажутся экспериментальными прямо сейчас, и я узнал об их существовании, только взглянув на источники hunspell.

Итак, по сути:

hunspell -H -u my-file.html

it.

Кроме того, есть также переключатели -u1, -u2 и -u3, с которыми можно поиграть.

1 голос
/ 08 апреля 2011

Вы пытались использовать tidy ?

Я не использовал его для такого повышенного количества файлов, но он отлично работал для поиска проблем в 100+ HTML-страницах.Вы также можете использовать его в XML-файлах и может принимать файл конфигурации со многими опциями, которые я еще не исследовал.

...