Как извлечь блоки текста из HTML-страницы? - PullRequest
0 голосов
/ 09 марта 2011

Я бы хотел извлечь блоки текста из более чем 100 слов с большой HTML-страницы, используя PHP. Содержится ли текст в <p>...</p>, не имеет значения. Меня интересует только количество слов, которые составляют единообразный текстовый блок, поэтому следует также учитывать тексты вне абзацев HTML.

Как это можно сделать?

Ответы [ 2 ]

5 голосов
/ 09 марта 2011

Я использую phpQuery.Вы знакомы с jQuery?они имеют одинаковый синтаксис.Вы можете быть обеспокоены установкой новой библиотеки, но, поверьте мне, эта библиотека стоит дополнительных затрат

phpQuery

Затем вы можете получить к ней доступ так:

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}
2 голосов
/ 09 марта 2011

Используйте PHP Simple DOM Parser .

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}
...