Ответ, который дает вам Джей, правильно разделит слова, которые связаны da sh, но вам придется впоследствии использовать биграмму слов, чтобы узнать об этой комбинации слов.
Например, если вы впоследствии выполняете TF-IDF, вы можете сгенерировать его следующим образом:
TfidfVectorizer(ngram_range = (1,2))
Это сгенерирует векторизатор с учетом униграмм и биграмм слов.
Вы также можете заменить da sh пустым и просто объединить два слова в одно, чтобы впоследствии токенизировать слова как одно целое, а слово da sh было разделено как целые слова.
text = text.replace('-', '')
text = nltk.tokenize.word_tokenize(text)
Вывод:
['hello','I','am','an','artificialhuman']