Question

В рамках обучения самому питону я написал скрипт, который позволяет пользователю играть в палача. На данный момент угадываемое слово палача просто вводится вручную в начале кода скрипта.

Вместо этого я хочу, чтобы скрипт выбирал случайным образом из большого списка английских слов. Это я знаю, как это сделать - моя проблема в первую очередь найти этот список слов для работы.

Кто-нибудь знает об источнике в сети, скажем, 1000 распространенных английских слов, где они могут быть загружены в виде блока текста или чего-то подобного, с которым я могу работать?

(Моей первоначальной мыслью было получить кусок романа из проекта Гутенбург [этот проект только для моего собственного удовольствия и не будет доступен где-либо еще, так что авторские права и т. Д. Для меня не имеют большого значения, кстати), но что-то вроде он может содержать слишком много имен или нестандартных слов, которые не подходят для палача. Мне нужен текст, в котором есть только слова, разрешенные для использования в скрэббл, в основном).

Здесь, я полагаю, это немного странный вопрос, но на самом деле я подумал, что ответ может быть полезен не только мне, но и всем, кто работает над проектом для игры в словаре или подобной ей, для работы которой требуется большой начальный список слов. .

Большое спасибо за любые ссылки или предложения:)

Jay Askren · Answer 1 · 12 апреля 2010

Создание текстового списка вручную

Захватите текст из Project Gutenberg, Wikipedia или другого источника. Просмотрите текст и посчитайте, сколько раз было найдено каждое слово. Чаще всего встречаются слова местоимения, союзы и т. Д. Просто выбросьте их.

Собственные существительные, вероятно, будут наименее часто встречающимися словами, если, конечно, ваш текст не является историей, тогда имена персонажей, вероятно, будут встречаться довольно часто. Вероятно, лучший способ обращения с собственными существительными - это использовать много источников и подсчитать, в каких источниках встречается слово. По сути, слова, которые распространены среди множества различных источников, скорее всего, не будут собственными существительными. Слова, относящиеся к одному текстовому источнику, вы можете выбросить. Эта идея связана с tfidf .

После того, как вы вычислили эти частоты слов, также легко просто просмотреть слова и при необходимости настроить свой список.

Использовать Wordnet

Другая идея заключается в загрузке слов из Wordnet . Wordnet рассказывает части речи для большого количества слов. Вы можете просто придерживаться существительных и глаголов для вашей цели.

Большой бесплатный блок английского не местоименного текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Большой бесплатный блок английского не местоименного текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы