Где взять отсортированный по частоте словарь, доступный для использования в свободном ПО? - PullRequest
1 голос
/ 16 октября 2011

Мне нужен отсортированный по частоте словарь для программы сжатия (разрешительная лицензия или лицензия, совместимая с GPLv3), но я не имею ни малейшего понятия, где ее получить по такой лицензии (у всех отсутствовали или содержались неправильные уведомления об авторских правах).Есть ли у кого-нибудь рекомендации, где его взять?Я некоторое время искал, но, похоже, мой единственный вариант - создать свой собственный, который я сомневаюсь в эффективном качестве, используя электронные книги.(моя цель не была бы полностью репрезентативной для всего английского, тем более современного английского).

PS: около 200 000-50 000 слов - хорошая цель.Огромные файлы не очень хорошая идея.

Ответы [ 2 ]

3 голосов
/ 16 октября 2011

То, что вы хотите, это униграмма, построенная на большом количестве репрезентативного английского текста.«Распространение униграмм» - это формальный термин для того, что вы называете «словарь с частотами».

Google опубликовал гигантскую коллекцию нграмм под разрешающей лицензией.

См. http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html.

Или http://books.google.com/ngrams/datasets.

Если вам не нужны все эти непонятные слова, просто нарежьте дистрибутив на то, что вы хотите.

Что касается лицензирования, даже FSFговорит, что GPL неприменима к словарям.Они не «источник».Таким образом, лицензия CC здесь прекрасно работает для включения во что угодно.

Если вам не нужны полностью репрезентативные данные, скачайте дампы Википедии и инструмент Ruby для извлечения текста и сделайте свой собственный дистрибутив unigram..

Что бы вы ни выбрали, вы будете работать с большим количеством данных , если хотите получить полезные результаты.

1 голос
/ 31 января 2015

Посмотрите здесь: http://norvig.com/ngrams/

Содержит это, которое может быть тем, что вам нужно:

  1. 4,9 МБ count_1w.txt - 1/3 миллиона самых частых слов, все строчные, с графами.(В этой главе он называется vocab_common, но я изменил имена файлов здесь.)
  2. 5.6 МБ count_2w.txt - 1/4 миллиона самых распространенных биграмм с двумя словами (строчными буквами) со счетчиками.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...