У меня есть таблица базы данных MySQL с несколькими тысячами строк. Таблица настроена так:
id | text
Столбец id
представляет собой автоинкрементное целое число, а столбец text
представляет собой 200-символьный вариант.
Скажите, у меня есть следующие строки:
3 | I think I'll have duck tonight
4 | Maybe the chicken will be alright
5 | I have a pet duck now, awesome!
6 | I love duck
Тогда список, который я хочу создать, может выглядеть примерно так:
- 3 случая «утки»
- 3 вхождения 'I'
- 2 вхождения 'have'
- 1 вхождение 'курица'
- .etc .etc
Кроме того, я, вероятно, захочу сохранить список подстрок, которые следует игнорировать из списка, например, «I», «will» и «have». Важно отметить, что я не знаю, что люди будут публиковать.
У меня нет списка слов, которые я хочу отслеживать, я просто хочу найти наиболее распространенные подстроки. Затем я отфильтрую любые ошибочные подстроки, которые не интересны, из списка вручную, отредактировав запрос.
Кто-нибудь может предложить лучший способ сделать это? Спасибо всем!