Ну, вы могли бы использовать preg_split, чтобы получить список слов и то, как часто они встречаются, я предполагаю, что это то, что вы работали до сих пор.
Единственное, о чем я мог подумать в отношении удаления неважных слов, - это иметь словарь слов, которые вы хотите игнорировать, содержащий «a», «I», «the», «and» и т. Д.Используйте этот словарь, чтобы отфильтровать нежелательные слова.
Почему вы это делаете, это для поиска содержимого страницы?Если это так, то большинство внутренних баз данных предлагают какую-то функциональность текстового поиска, и MySQL, и Postgres имеют, например, механизм полнотекстового поиска, который автоматически отбрасывает неважные слова.Я бы порекомендовал использовать полнотекстовые функции используемой серверной базы данных, так как есть вероятность, что они уже реализуют что-то, отвечающее вашим требованиям.