Question

Для образовательного проекта НЛП мне нужен список всех итальянских слов.Я думал, что напишу сканер, который получит слова от www.wordreference.com.Я использую Python с каркасом механизированного сканера.но когда я использую код:

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

, я получаю страницу с сайта "yahoo.com".Возможно ли, что у этого сайта есть механизм против сканирования?

Skarab · Answer 1 · 08 апреля 2011

Я бы предложил использовать существующие наборы данных, вот несколько примеров из этой acl wiki-страницы :

Корпуса:

...

Оксфордский текстовый архив Корпус итальянских газет ...

...

WordNets

EuroWordNet

MultiWordNet - многоязычная лексическая база данных, в которой итальянская WordNet строго согласована с Princeton WordNet 1.6 ...

Пожалуйста, проверьте полный список на вики-странице acl, я думаю, вы должны найти итальянский корпус, который позволит вам определять итальянские слова.

Возможен антискроллер

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Возможен антискроллер

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы