Сравнение языков программирования для задачи веб-анализа данных - PullRequest
0 голосов
/ 16 ноября 2009

Мне нужна помощь в сравнении различных языков программирования, таких как: C ++, Java, Python, Ruby и PHP, для задачи, связанной с веб-анализом данных (разработка веб-сканера, манипуляции со строками и т. Д.). У меня есть небольшой опыт работы с PHP, и я думаю, что преимущества, которые он имеет для этой конкретной задачи, - это простой синтаксис, возможности глубокого разбора строк, сетевые функции и переносимость, но я не знаю много о других языках, их преимуществах и недостатках. связанные с этой конкретной задачей.

Ответы [ 3 ]

1 голос
/ 16 ноября 2009

Конкретный язык не будет иметь значения почти так же, как ваше знакомство. В эти дни все языки высокого уровня придут с основами. Если вам не нужно, чтобы он был сверхбыстрым (вероятно, вы будете ограничены скоростью загрузки, а не скоростью разбора HTML) или другими ограничениями, не указанными в списке, язык не будет иметь большого значения.

Просто убедитесь, что вы используете библиотеки. В частности, библиотека для разбора HTML, которая хороша с неверной разметкой (не синтаксический анализатор XML) и регулярными выражениями, где это уместно.

1 голос
/ 20 января 2010

Как и в предыдущем посте - знакомство имеет большое значение. Я также сказал бы, посмотрите, на что был изначально рассчитан язык - он дает хорошее представление о том, в чем он лучше всего.

PHP - разработан для сценариев на стороне сервера, не очень подходит для этого использования.

Perl - предназначен для разделения текста (хорошее начало) и отличных библиотек - посмотрите на LWP и модули в HTML, такие как HTML :: Treebuilder - хороший выбор. Непревзойденный выбор модулей для плагина.

Python - хороший выбор, посмотрите на Beautifulsoup и urllib

Ruby - также хороший выбор, посмотрите на hpricot, гораздо менее зрелый, чем Perl или Python, с точки зрения доступных модулей.

Я написал довольно много программного обеспечения для веб-пауков / интеллектуального анализа данных и всегда использовал Perl. Если бы я сегодня начинал с нуля, я мог бы выбрать python.

0 голосов
/ 16 ноября 2009

Первый сканер Google был написан на Python 1.5

Я не эксперт по другим языкам, но я бы пошел с Python и html5lib или Beautifulsoup.

...