Возможен антискроллер - PullRequest
       7

Возможен антискроллер

1 голос
/ 07 апреля 2011

Для образовательного проекта НЛП мне нужен список всех итальянских слов.Я думал, что напишу сканер, который получит слова от www.wordreference.com.Я использую Python с каркасом механизированного сканера.но когда я использую код:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

, я получаю страницу с сайта "yahoo.com".Возможно ли, что у этого сайта есть механизм против сканирования?

1 Ответ

4 голосов
/ 08 апреля 2011

Я бы предложил использовать существующие наборы данных, вот несколько примеров из этой acl wiki-страницы :

Корпуса:

WordNets

  • EuroWordNet
  • MultiWordNet - многоязычная лексическая база данных, в которой итальянская WordNet строго согласована с Princeton WordNet 1.6 ...

Пожалуйста, проверьте полный список на вики-странице acl, я думаю, вы должны найти итальянский корпус, который позволит вам определять итальянские слова.

...