В наборе печатаемых символов ASCII дефис и минус - это один и тот же символ (ASCII 45), поэтому при сканировании только текстовых данных ASCII, которые можно распечатать, их удаление или отсутствие зависит от контекста. Кроме того, дефисные слова не должны содержать пробелов, и когда они используются для выделения фразы - как это - вы обычно найдете две последовательные черты. Так что, если вы находите символ самостоятельно, в файле происходит что-то необычное.
Чтобы соответствовать символу En-dash или Em-dash, вы должны искать \ 226 или \ 227 соответственно (значение ASCII в восьмеричном).