но если он находит слово, подобное этому: «ааа-аа» (не «ааа-аа» или «ааа-ааа-аа»), слово не расщепляется, а целое слово *
По сути, я хочу разделить предложения по словам, но также и слово "ааа-аа" - это слово. Я успешно сделал это, создав две отдельные функции: одну для разделения с \ w, а другую для поиска слов типа "aaa-aa". Наконец, я затем добавляю оба и вычитаю каждое составное слово.
Например, предложение:
«Привет, меня зовут Ричард»
Сначала я собираю {Привет, меня зовут, Ричард}
тогда я собираю {мое имя}
затем я добавляю {my-name} в {Hello, my, name, is, Richard}
затем я вынимаю {my} и {name} здесь {Здравствуйте, my, name, is, Richard}.
результат: {Привет, меня зовут, Ричард}
этот подход делает то, что мне нужно, но для разбора больших файлов это становится слишком тяжелым, потому что для каждого предложения требуется слишком много копий. Итак, мой вопрос, есть ли что-нибудь, что я могу сделать, чтобы включить все в один шаблон? Как:
«разбить мне текст по этому шаблону» [\ W +], но если вы найдете слово, подобное этому «ааа-аа», считайте это словом, а не двумя словами.