как извлечь весь текст из файла HTML
Я хочу извлечь весь текст, в атрибутах alt, тегах
и т. Д.
однако я не хочу извлекать текст между тегами стиля и скрипта
Спасибо
сейчас у меня есть следующий код
<?PHP
$string = trim(clean(strtolower(strip_tags($html_content))));
$arr = explode(" ", $string);
$count = array_count_values($arr);
foreach($count as $value => $freq) {
echo trim ($value)."---".$freq."<br>";
}
function clean($in){
return preg_replace("/[^a-z]+/i", " ", $in);
}
?>
Это прекрасно работает, но возвращает теги сценариев и стилей, которые я не хочу получать
и другая проблема, я не уверен, что он действительно получает атрибуты, такие как alt - так как функция strip_tags может удалить все теги HTML с их атрибутами
Спасибо