Похоже, что Lynx умеет получать только нужный мне текст (содержимое тела и альтернативный текст) и игнорировать то, что мне не нужно (встроенный Javascript и CSS).
lynx -dump http://www.example.com
В нем также перечислены все URL (преобразованные в их абсолютную форму) на странице, которые можно отфильтровать с помощью grep:
lynx -dump http://www.example.com | grep -v "http"
URL-адреса также могут быть локальными (file://
), если я использовал wget для зеркалирования сайта.
Я напишу скрипт, который будет обрабатывать набор URL-адресов с использованием этого метода и выводить каждую страницу в отдельный текстовый файл. Затем я могу использовать существующее решение для проверки орфографии, чтобы проверить файлы (или один большой файл, объединяющий все маленькие).
Это будет игнорировать текст в заголовке и метаэлементах. Они могут быть проверены по отдельности.