Отделите слова от HTML-таблицы и сохраните их в текстовом файле. - PullRequest
0 голосов
/ 07 января 2012

У меня проблема с анализом слов из таблицы HTML. Мне нужно отделить слова от другого контента (столбец «лемма»):

Оригинальная версия страницы на русском языке - http://hsu.su/st2

английский (googletranslate) - http://hsu.su/155

Я слышал о PHP Simple HTML DOM Parser http://simplehtmldom.sourceforge.net/, но я не могу понять, как решить эту проблему с ним.

Ответы [ 2 ]

1 голос
/ 07 января 2012
<?php
    include_once('simplehtmldom/simple_html_dom.php');
    $html = file_get_html('http://dict.ruslang.ru/freq.php?act=show&dic=freq_news_comp&title=%D1%EB%EE%E2%E0%F0%FC%20%E7%ED%E0%F7%E8%EC%EE%E9%20%E3%E0%E7%E5%F2%ED%EE-%ED%EE%E2%EE%F1%F2%ED%EE%E9%20%EB%E5%EA%F1%E8%EA%E8');

    $myFile = "file.txt";
    $fh = fopen($myFile, 'w') or die("can't open file");


    $table=$html->find('table',1);
    foreach($table->find('td') as $td)
    fwrite($fh, $td->plaintext);

    fclose($fh);
    ?>

Скачайте simplehtmldom по той же ссылке, что и вы.

скопируйте в ту же папку

убедитесь, что путь, включенный в код, относится к правильному классу

сделать файл file.txt в той же папке ..

и запустите код ...

У вас есть

 '&nbsp;'

дополнительные, которые вы можете удалить из строковых функций php ..

0 голосов
/ 07 января 2012

Проверьте функцию PHP strip_tags () .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...