Я не верю, что есть какое-то такое "правило".Если вы планируете использовать глубокое обучение, я думаю, что единственным ограничивающим фактором является то, сколько слов вы можете позволить себе тренировать из-за нехватки памяти / времени.Но, тем не менее, вы можете достичь почти максимальной точности, ограничив подмножество наиболее распространенных слов.Я думаю, что около 50000 слов было бы разумным началом, если вы имеете дело с одним языком.Оттуда вы можете расширить словарный запас, если вам нужна лучшая производительность.