Самый простой способ удалить веб-страницы для сохранения в .csv - PullRequest
0 голосов
/ 21 марта 2012

Есть страница, которую я хочу очистить, вы можете передать ей переменные в URL, и она генерирует конкретный контент.Все содержимое находится в гигантской таблице HTML.

Я ищу способ написать сценарий, который может пройти через 180 из этих разных страниц, извлечь конкретную информацию из определенных столбцов в таблице, выполнить некоторые математические операции,и затем запишите их в файл .csv.Таким образом, я могу сам провести дальнейший анализ данных.

Какой самый простой способ очистить веб-страницы, проанализировать HTML и затем сохранить данные в файле .csv?

Я сделал кое-чтокак и в python и PHP, разбор HTML - не самая простая и не самая чистая вещь.Есть ли другие маршруты, которые проще?

1 Ответ

1 голос
/ 21 марта 2012

Если у вас есть некоторый опыт работы с python, я бы порекомендовал что-то вроде BeautifulSoup , или в PHP вы можете использовать PhPQuery .

Как только вы знаете, как использоватьHTML-парсер, затем вы можете создать программу "pipe-and-filter" для выполнения математических операций и вывести ее в файл CSV.

Посмотрите на этот вопрос , чтобы узнать большеинформация о решении Python.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...