Большой бесплатный блок английского не местоименного текста - PullRequest
1 голос
/ 11 апреля 2010

В рамках обучения самому питону я написал скрипт, который позволяет пользователю играть в палача. На данный момент угадываемое слово палача просто вводится вручную в начале кода скрипта.

Вместо этого я хочу, чтобы скрипт выбирал случайным образом из большого списка английских слов. Это я знаю, как это сделать - моя проблема в первую очередь найти этот список слов для работы.

Кто-нибудь знает об источнике в сети, скажем, 1000 распространенных английских слов, где они могут быть загружены в виде блока текста или чего-то подобного, с которым я могу работать?

(Моей первоначальной мыслью было получить кусок романа из проекта Гутенбург [этот проект только для моего собственного удовольствия и не будет доступен где-либо еще, так что авторские права и т. Д. Для меня не имеют большого значения, кстати), но что-то вроде он может содержать слишком много имен или нестандартных слов, которые не подходят для палача. Мне нужен текст, в котором есть только слова, разрешенные для использования в скрэббл, в основном).

Здесь, я полагаю, это немного странный вопрос, но на самом деле я подумал, что ответ может быть полезен не только мне, но и всем, кто работает над проектом для игры в словаре или подобной ей, для работы которой требуется большой начальный список слов. .

Большое спасибо за любые ссылки или предложения:)

Ответы [ 3 ]

1 голос
/ 12 апреля 2010

Будет ли это полезным?

0 голосов
/ 12 апреля 2010

Создание текстового списка вручную

Захватите текст из Project Gutenberg, Wikipedia или другого источника. Просмотрите текст и посчитайте, сколько раз было найдено каждое слово. Чаще всего встречаются слова местоимения, союзы и т. Д. Просто выбросьте их.

Собственные существительные, вероятно, будут наименее часто встречающимися словами, если, конечно, ваш текст не является историей, тогда имена персонажей, вероятно, будут встречаться довольно часто. Вероятно, лучший способ обращения с собственными существительными - это использовать много источников и подсчитать, в каких источниках встречается слово. По сути, слова, которые распространены среди множества различных источников, скорее всего, не будут собственными существительными. Слова, относящиеся к одному текстовому источнику, вы можете выбросить. Эта идея связана с tfidf .

После того, как вы вычислили эти частоты слов, также легко просто просмотреть слова и при необходимости настроить свой список.

Использовать Wordnet

Другая идея заключается в загрузке слов из Wordnet . Wordnet рассказывает части речи для большого количества слов. Вы можете просто придерживаться существительных и глаголов для вашей цели.

0 голосов
/ 11 апреля 2010

Вы пробовали / usr / share / dict / words?

...