Написание программы для чистки форумов - PullRequest
3 голосов
/ 05 июня 2010

Мне нужно написать программу для чистки форумов.

Должен ли я написать программу на Python с использованием фреймворка Scrapy или использовать Php cURL? Также есть ли Php эквивалент Scrapy?

Спасибо

Ответы [ 2 ]

4 голосов
/ 05 июня 2010

Я бы выбрал Python из-за превосходных привязок libxml2, особенно таких как lxml.html и pyQuery . Scrapy имеет свои собственные привязки libxml2, я не смотрел на них, чтобы проверить их, хотя просмотр документации Scrapy не произвел на меня большого впечатления (я сделал много очистки, используя только эти парсеры и ручное кодирование). С любым из них вы получаете действительно превосходный анализатор HTML, запрашивающий через XPath, а с lxml.html и pyquery (также построенный на lxml) вы получаете селекторы CSS.

Если вы выполняете небольшую работу по очистке форума, я бы пропустил структуру очистки и просто сделал это вручную - это просто, распараллеливание и т. Д. На самом деле не нужно.

3 голосов
/ 05 июня 2010

Я бы не использовал PHP для нового приложения, которое я пишу.Мне не нравится язык по разным причинам.

Кроме того, он является языком сценариев на стороне сервера для доставки динамических страниц через Интернет.Не как язык программирования общего назначения.Это еще один минус.Я бы остановился на Python.

Что касается того, какой фреймворк использовать, их много.Harvestman, Scrapy и т. Д. Также есть облачный гусеничный ход 80legs, который вы не сможете использовать.

Обновление : Люди понизили этот ответ, вероятно потому, что я сказал, что не люблю PHP.Вот список причин, почему.Не совсем точный, но, тем не менее, приличный итог http://wiki.python.org/moin/PythonVsPhp

...