То, что вы хотите, это униграмма, построенная на большом количестве репрезентативного английского текста.«Распространение униграмм» - это формальный термин для того, что вы называете «словарь с частотами».
Google опубликовал гигантскую коллекцию нграмм под разрешающей лицензией.
См. http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html.
Или http://books.google.com/ngrams/datasets.
Если вам не нужны все эти непонятные слова, просто нарежьте дистрибутив на то, что вы хотите.
Что касается лицензирования, даже FSFговорит, что GPL неприменима к словарям.Они не «источник».Таким образом, лицензия CC здесь прекрасно работает для включения во что угодно.
Если вам не нужны полностью репрезентативные данные, скачайте дампы Википедии и инструмент Ruby для извлечения текста и сделайте свой собственный дистрибутив unigram..
Что бы вы ни выбрали, вы будете работать с большим количеством данных , если хотите получить полезные результаты.