Не так уж много базовых слов (171k согласно этому - Оксфорд . Это то, что я помню, когда мне рассказывали в моей программе CS в колледже.
Но если включить все формы слов - тогда это значительно возрастает.
Тем не менее, почему бы не сделать его самостоятельно? Получите дамп Википедии, проанализируйте его и создайте набор всех токенов, с которыми вы столкнетесь.
Ожидайте ошибочных написаний, хотя, как и все другие источники, будут ошибки.