Натуральные английские слова - PullRequest
21 голосов
/ 16 января 2009

Мне нужен самый исчерпывающий список английских слов, который я могу найти для нескольких типов операций языковой обработки, но я не смог найти в Интернете ничего достаточно хорошего качества.

В английском языке имеется 1 000 000 слов, включая иностранные и / или технические слова.

Не могли бы вы предложить такой источник (или около 500 тыс. Слов), который можно загрузить из Интернета, который может быть немного классифицирован? Какой ввод вы используете для ваших языковых приложений обработки

Ответы [ 6 ]

26 голосов
/ 16 января 2009

Списки слов Кевина - лучшее, что я знаю, только для списков слов.

WordNet лучше, если вы хотите узнать о существительных, глаголах и т. Д., Синонимах и т. Д.

8 голосов
/ 23 февраля 2009

` Мистификация" миллион слов "катится по ', я вижу ;-)

Как сделать ваши списки слов длиннее: с учетом существительного добавьте в него любое из следующего: non-, pseudo-, semi-, -arific, -geek, ...; mutatis mutandis для глаголов и т. Д.

4 голосов
/ 16 января 2009

Я проводил исследования для Purdue по обработке контролируемого / естественного английского языка и знания предметной области.

Я бы взглянул на проект попытки: http://attempto.ifi.uzh.ch/site/description/, который является проектом, помогающим создать контролируемый естественный английский.

Вы можете скачать всю их лексику по адресу: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip, в ней ~ 100 000 естественных английских слов.

Вы также можете предоставить свой собственный словарь для доменных слов, это то, что мы сделали в нашем исследовании. Они предлагают веб-сервисы для анализа и форматирования естественного английского текста.

3 голосов
/ 16 января 2009

Кто сказал вам, что было 1 миллион слов? Согласно Википедии , Оксфордский словарь английского языка содержит только 600 000 слов. И OED пытается включить все технические и сленговые термины, которые используются.

2 голосов
/ 11 июня 2012

Попробуйте напрямую выдержки из Википедии: http://dbpedia.org

0 голосов
/ 19 апреля 2015

Не так уж много базовых слов (171k согласно этому - Оксфорд . Это то, что я помню, когда мне рассказывали в моей программе CS в колледже. Но если включить все формы слов - тогда это значительно возрастает.

Тем не менее, почему бы не сделать его самостоятельно? Получите дамп Википедии, проанализируйте его и создайте набор всех токенов, с которыми вы столкнетесь.

Ожидайте ошибочных написаний, хотя, как и все другие источники, будут ошибки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...