Я пытаюсь отфильтровать имена из текстовых BLOB-объектов. В настоящее время я просто генерирую список слов и фильтрую его вручную, но у меня осталось ~ 8 тыс. Слов, поэтому я ищу лучший путь. Я мог бы взять словарь и отфильтровать их, но это отбросило бы имена, такие как Смит и Клифф.
Мне нужно одно из следующих:
- список общих имен (мне нужно> 5k наиболее распространенных имен)
- список имен, которые также являются словами
Я думаю между ними, я могу создать комбинированный черный / белый список, чтобы получить то, что мне нужно.