У меня проблема с анализом слов из таблицы HTML. Мне нужно отделить слова от другого контента (столбец «лемма»):
Оригинальная версия страницы на русском языке - http://hsu.su/st2
английский (googletranslate) - http://hsu.su/155
Я слышал о PHP Simple HTML DOM Parser http://simplehtmldom.sourceforge.net/, но я не могу понять, как решить эту проблему с ним.
<?php include_once('simplehtmldom/simple_html_dom.php'); $html = file_get_html('http://dict.ruslang.ru/freq.php?act=show&dic=freq_news_comp&title=%D1%EB%EE%E2%E0%F0%FC%20%E7%ED%E0%F7%E8%EC%EE%E9%20%E3%E0%E7%E5%F2%ED%EE-%ED%EE%E2%EE%F1%F2%ED%EE%E9%20%EB%E5%EA%F1%E8%EA%E8'); $myFile = "file.txt"; $fh = fopen($myFile, 'w') or die("can't open file"); $table=$html->find('table',1); foreach($table->find('td') as $td) fwrite($fh, $td->plaintext); fclose($fh); ?>
Скачайте simplehtmldom по той же ссылке, что и вы.
скопируйте в ту же папку
убедитесь, что путь, включенный в код, относится к правильному классу
сделать файл file.txt в той же папке ..
и запустите код ...
У вас есть
' '
дополнительные, которые вы можете удалить из строковых функций php ..
Проверьте функцию PHP strip_tags () .