регулярное выражение для поиска нечитаемых символов в имени файла - PullRequest
0 голосов
/ 04 апреля 2019

У меня есть огромный файл, содержащий 4,1 миллиона записей, и мне нужно найти эти * Clock Accuracy – SM111.ppt файлы с нечитаемыми символами.Другой такой пример - 241395 - Ansprüche.doc

Как сопоставить это с помощью регулярного выражения.Я использую базу данных oracle 12c

1 Ответ

1 голос
/ 04 апреля 2019

Это выглядит как проблема с кодировкой символов вашего файла. Файл выглядит в кодировке UTF-8: ü означает ü, что имеет смысл Ansprüche.doc. – кодирует N-тире () и т. Д.

Таким образом, вам нужно открыть файл, используя UTF-8 в качестве его кодировки, тогда должны появиться правильные символы (если файл не поврежден при использовании нескольких кодировок одновременно).

...