У меня есть блоки текста, которые я хочу разметить, но я не хочу размечать пробелы и знаки пунктуации, как это представляется стандартом для таких инструментов, как NLTK .Есть определенные фразы, которые я хочу, чтобы токенизировали как один токен, вместо обычного токенизации.
Например, с учетом предложения «Западное крыло - это американский телесериал, созданный Аароном Соркиным, который первоначально транслировался на NBC с 22 сентября 1999 года по 14 мая 2006 года», и добавление фразы ктокенизатор " западное крыло ", получившиеся токены будут иметь вид:
- западное крыло
- равно
- и
- american
- ...
Какой лучший способ сделать это?Я бы предпочел оставаться в рамках таких инструментов, как NLTK.