Если у меня есть значительный объем текста и я пытаюсь найти шаблоны, которые встречаются чаще всего, я думал о том, чтобы решить его, используя подход N-Gram, и фактически он был предложен в качестве решения в этом вопрос, но мое требование немного отличается. Просто чтобы уточнить, у меня есть такой текст:
I wake up every day morning and read the newspaper and then go to work
I wake up every day morning and eat my breakfast and then go to work
I am not sure that this is the solution but I will try
I am not sure that this is the answer but I will try
I am not feeling well today but I will get the work done and deliver it tomorrow
I was not feeling well yesterday but I will get the work done and let you know by tomorrow
и я пытаюсь извлечь "шаблоны" следующим образом:
I wake up every day morning and ... and then go to work
I am not sure that this is the ... but I will try
I ... not feeling well ... but I will get the work done and ... tomorrow
Я ищу подход, который может масштабироваться до миллиона строк текста, поэтому мне просто интересно, могу ли я адаптировать тот же N-граммовый подход для решения этой проблемы или есть какие-то альтернативы?