Находить «шаблоны» в данном тексте? - PullRequest
5 голосов
/ 30 июня 2011

Если у меня есть значительный объем текста и я пытаюсь найти шаблоны, которые встречаются чаще всего, я думал о том, чтобы решить его, используя подход N-Gram, и фактически он был предложен в качестве решения в этом вопрос, но мое требование немного отличается. Просто чтобы уточнить, у меня есть такой текст:

I wake up every day morning and read the newspaper and then go to work
I wake up every day morning and eat my breakfast and then go to work
I am not sure that this is the solution but I will try
I am not sure that this is the answer but I will try
I am not feeling well today but I will get the work done and deliver it tomorrow
I was not feeling well yesterday but I will get the work done and let you know by tomorrow

и я пытаюсь извлечь "шаблоны" следующим образом:

I wake up every day morning and ... and then go to work
I am not sure that this is the ... but I will try
I ... not feeling well ... but I will get the work done and ... tomorrow

Я ищу подход, который может масштабироваться до миллиона строк текста, поэтому мне просто интересно, могу ли я адаптировать тот же N-граммовый подход для решения этой проблемы или есть какие-то альтернативы?

1 Ответ

5 голосов
/ 30 июня 2011

Миллионы строк текста не очень большое число:)

То, что вы ищете, по крайней мере похоже на поиск словосочетания.Вы можете попытаться вычислить точечную взаимную информацию на n-граммах.См. Manning & Schütze (1999) , чтобы узнать об этом и других подходах к проблеме.

...