Псевдокод будет выглядеть так:
create words, a list of words, by splitting the input by whitespace
for every word, strip out whitespace and punctuation on the left and the right
Код Python будет выглядеть примерно так:
words = input.split()
words = [word.strip(PUNCTUATION) for word in words]
где
PUNCTUATION = ",. \n\t\\\"'][#*:"
или любые другие символы, которые вы хотите удалить.
Я считаю, что Java имеет эквивалентные функции в классе String: String .split ().
Вывод этого кода на текст, который вы указали в ссылке:
>>> print words[:100]
['Project', "Gutenberg's", 'Manual', 'of', 'Surgery', 'by', 'Alexis',
'Thomson', 'and', 'Alexander', 'Miles', 'This', 'eBook', 'is', 'for',
'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and',
'with', 'almost', 'no', 'restrictions', 'whatsoever', 'You', 'may',
'copy', 'it', 'give', 'it', 'away', 'or', 're-use', 'it', 'under',
... etc etc.