Что вам нужно, это английский | немецкий | ... токенизатор? Токенизация на естественном языке не так проста, как поиск пробелов. Например, если вы хотите пометить это предложение: «Лос-Анджелес - красивый город». Лос-Анджелес следует рассматривать как одно слово, а не два, если вы хотите найти его в словаре.
Также вы должны иметь дело с пунктуацией (.;?! :), аббревиатурами, разделителями, цитатами, сокращениями клита и т. Д. ...
Токенизация на таких языках, как китайский или японский, намного сложнее.
В книге «Речь и обработка языка» Джурафски и Мартина из главы 3.9.1 приведен простой Perl-скрипт токенизации английского языка.