Извлечь весь текст из HTML-страницы без потери контекста - PullRequest
0 голосов
/ 07 мая 2010

Для программы перевода я пытаюсь получить 95% точный текст из файла HTML, чтобы перевести предложения и ссылки.

Например:

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div>

Должен дать 2 результата для перевода:

Overflow

Texts <b>go</b> here

Какие-либо предложения или коммерческие пакеты, доступные для этой проблемы?

1 Ответ

0 голосов
/ 07 мая 2010

Я не совсем уверен, что вы спрашиваете, но посмотрите на simplehtmldom . В частности, вкладка «Извлечь содержимое из HTML» в разделе «Быстрый старт» на этой главной странице (прямая ссылка не может sigh ) С этим вы можете извлечь текст веб-сайта без всех этих надоедливых тегов.

...