Ваша первая строка содержит несколько символов двунаправленной маркировки Unicode: U + 2068 и U + 2069.Вы можете использовать функцию ord
в Python, чтобы проверить следующее:
>>> [ord(x) for x in '/Volumes/Macintosh HD/Archive/Work/AE_Scripting/Resources/CEP-Resources-master/CEP_8.x/Documentation']
[47, 86, 111, 108, 117, 109, 101, 115, 47, 77, 97, 99, 105, 110, 116, 111, 115, 104, 32, 72, 68, 47, 65, 114, 99, 104, 105, 118, 101, 47, 87, 111, 114, 107, 47, 65, 69, 95, 83, 99, 114, 105, 112, 116, 105, 110, 103, 47, 8296, 82, 101, 115, 111, 117, 114, 99, 101, 115, 8297, 47, 8296, 67, 69, 80, 45, 82, 101, 115, 111, 117, 114, 99, 101, 115, 45, 109, 97, 115, 116, 101, 114, 8297, 47, 8296, 67, 69, 80, 95, 56, 46, 120, 8297, 47, 8296, 68, 111, 99, 117, 109, 101, 110, 116, 97, 116, 105, 111, 110]
Видите те, которые стоят 8000?Это те маркеры Unicode, которые вам не нужны.
Если вы просто хотите простой ASCII, вот как я бы это сделал в Python:
''.join(c for c in my_string if ord(c) < 256)
Это исключает все, что выше U +00FF.