PHP Simple HTML DOM или Python-BSoup: какой подход проще? - PullRequest
2 голосов
/ 14 мая 2011

В настоящее время я работаю над подходом к анализу сайта, содержащего данные по фондам в Европе.

http://www.foundationfinder.ch/, который имеет набор данных из 790 фондов.Все данные бесплатны для использования - без ограничений авторские права на них.

Какова цель: я хочу проанализировать данные и сохранить их локально: для лучшего поиска и более удобного способа использования: возможно, возможно сохранить их в Calc / или даже лучше MySQL-Database.

Вопрос: Какой самый простой способ анализа HTML с помощью Perl. Если я использую LWP или Mechanize: какой из них является более легким подходом!?Красивый суп.Я думал о подходе с Perl LWP или Python Beautiful Soup.Другие подходы к анализу такого сайта я не вижу.Хорошо, есть способ - использовать PHP.Конечно, так или иначе мы можем использовать PHP (и Curl)

Какой подход является лучшим.Perl с LWP или механизировать?или Python one ...?

Помимо вопроса о языке: может ли кто-нибудь помочь мне на первых шагах. - помочь выйти на трассу !?Я с нетерпением жду, чтобы услышать от вас

Относительно нуля

Ответы [ 3 ]

1 голос
/ 14 мая 2011

На чем ты хорош? PHP или Python? Конечно, когда речь заходит о подобных вещах, будет нечто большее, чем просто сравнение, но давайте не будем этого делать. Иди и выбери тот, который ты знаешь лучше. Можно сказать, Perl или даже Python, или PHP, но у каждого есть свои преимущества. В конце концов, вы будете одним из тех, кто его кодирует, поэтому выбирайте тот, который вам лучше знаком.

1 голос
/ 14 мая 2011

Все данные бесплатны для использования - без ограничений авторские права на них.

Я бы не был так уверен.Они изо всех сил пытаются запутать контактные данные, чтобы «данные не могли быть сохранены в таблицах для создания списков рассылки».Детали на фундаментах не HTML, это изображения.Кроме того, они ограничивают результаты поиска максимум 100. Если вы понимаете немецкий язык, вам следует прочитать раздел «Daten Schutz» (защита данных) в Informationen.

Если все, что вам нужно, это связать названия фондов сКритерии поиска, которые позволяет вам использовать сайт, затем просмотрите остальные ответы.Если вы хотите сохранить подробную информацию, то вы нарушите намерения сайта и должны будете проконсультироваться с юристом о том, имеют ли их заявления юридическую значимость.Кроме того, вам потребуется OCR , чтобы вернуть изображения обратно к используемым данным.

1 голос
/ 14 мая 2011

Мои два цента в том, что вы должны выбирать в зависимости от языка, который вы знаете лучше всего. На моем месте я бы использовал Python, в котором есть несколько библиотек и инструментов, и это было бы чем-то вроде пары часов работы.

Однако, если вы хорошо владеете Perl или PHP, вы должны выбрать один из этих языков. Большинство языков сценариев имеют библиотеки, которые могут выполнить задачу.

...