так что в конце (после нескольких дней отладки) я обнаружил проблему. Это не в регулярных выражениях вообще: /. Похоже, я обрезал экстра пробелы
intput= Regex.Replace(input, "\\s+", " ");
поэтому все новые строки заменяются на "". Глупый! Модератор, удалите это, если излишне!
У меня есть регулярное выражение для токенизации некоторого текста, и это выглядит так:
"(?<html>Ç)|
(?<number>\\d+(?:[.]\\d+)?(?=[][ \f\n\r\t\v!?.,():;\"'„Ç]|$))|
(?<other>(?:[^][Ç \f\n\r\t\v!?.,():;\"'„A-Za-zčćšđžČĆŠĐŽäöÖü][^ Ç\f\n\r\t\vA-Za-zčćšđžČĆŠĐŽäöÖü]*)?[^][ Ç\f\n\r\t\v!?.,():;\"'„A-Za-zčćšđžČĆŠĐŽäöÖü](?=[][!?.,():;\"'„]*(?:$|[ Ç\f\n\r\t\v])))|
(?<word>(?:[^][ Ç\f\n\r\t\v!?.,():;\"'„][^ Ç\f\n\r\t\v]*)?[^][ Ç\f\n\r\t\v!?.,():;\"'„])|
(?<punctuation>[][ \f\n\r\t\v!?.,():;\"'„])"
Проблема в этой части: (?<punctuation>[][ \f\n\r\t\v!?.,():;\"'„])
. Поэтому, когда я набираю текст с помощью ввода "\n\n"
, он группируется в соответствии со знаками препинания: " "," "
- другими словами, пробел и пробел ... и я не знаю почему?