Если у меня есть список строк из токенизированной строки, как мне получить подсписок из списка, начинающегося с фразы (список строк фиксированного порядка, а не только одна строка, хотя len(phrase)
может быть 1 или далее) и заканчивая другой фразой (снова 1 или более)?
Как расширить вышеприведенное, чтобы оно работало с наполнителями, например start_phrase = ["I", "don't", "think", "FILLER", "would", "appreciate"]
?
Вот псевдо-пример входного и ожидаемого выходных данных:
lst = nltk.tokenize.word_tokenize("This is a sentence.\
Do you prefer sentences that are short, or sentences that are long?")
lst.sublist(["Do", "you", "prefer", "FILLER", "that"], ["or"])
["are", "short", ","]
Обратите внимание, что word_tokenize () имеет не только «слова» в списке, но и пунктуацию, например: ","
.