Я работаю с некоторыми действительно большими базами данных газетных статей, у меня они есть в базе данных MySQL, и я могу запросить их все.
Сейчас я ищу способы помочь мне пометить эти статьи несколько описательными тегами.
Все эти статьи доступны с URL-адреса, который выглядит следующим образом:
http://web.site/CATEGORY/this-is-the-title-slug
Так что, по крайней мере, я могу использовать категорию, чтобы выяснить, с каким типом контента мы работаем. Тем не менее, я также хочу пометить на основе текста статьи.
Мой первоначальный подход заключался в следующем:
- Получить все статьи
- Получить все слова, удалить все знаки препинания, разделить их пробелом и сосчитать их по вхождению
- Проанализируйте их и отфильтруйте общие неописательные слова, такие как «они», «я», «это», «это», «их» и т. Д.
- Когда все общие слова были отфильтрованы, единственное, что осталось, это слова, достойные тега.
Но это оказалось довольно ручной задачей, а не очень симпатичным или полезным подходом.
Это также страдает от проблемы слов или имен, разделенных пробелами, например, если в 1000 статей содержится имя «Джон Доу», а в 1000 статей содержится имя «Джон Хансон», я получу только слово «Джон» из этого, не его имя, а фамилия.