Мой файл - utf8, но содержит несколько символов latin1, а именно другие иностранные языки. Моя цель - избавиться от этих символов с помощью команды Unix. Ранее, когда я пытался добиться этого, удаляя все символы, не входящие в ASCII, команда ниже также удалила все акцентированные символы. Я хотел сохранить акцентированные символы в той же руке, что и для удаления из файла только неанглийских (мандарин, японский, корейский, тайский, арабский) терминов.
grep --color='auto' -P -n "[\x80-\xFF]" file.txt -> this command helped me remove non-ASCII chars but it also removes the accented chars(í, æ, Ö etc)...is it possible to get
888|Jobin|Matt|NORMALSQ|YUOZ|IOP|OPO|洁|ID12|doorbell|geo@xyx.comd
1011|ICE|LAND|邵|DUY|DUY|123|EOP|dataset1|geo@xyx.com
53101|炜|GUTTI|RR|Hi|London|UK|WLU|GB|dataset1|陈
สัอ |JOH|LIU|ABC|DUY|DUY|57T2P|EOP|unknown|geo@xyx.com
เมื่รกเริ่ม|JOH|LIU|ABC|DUYសា|DUY|57T2P|EOP|unknown|geo@xyx.com
?|??| RAVI|OLE|Hi|London|UK|NA|GB|unknown| WELSH@WELSH.COM
Rogério|Davies|Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Balázs| Roque| Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Johny|Peniç| Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Mike|Mane| Hi | USA |US|WLU|US|unknown| USA@WELSH.COM
Вывод:
888|Jobin|Matt|NORMALSQ|YUOZ|IOP|OPO||ID12|doorbell|geo@xyx.comd
1011|ICE|LAND||DUY|DUY|57T2P|EOP|dataset1|geo@xyx.com
53101||GUTTI|RR|Hi|London|UK|WLU|GB|dataset1|
|JOH|LIU|ABC|DUY|DUY|57T2P|EOP|unknown|geo@xyx.com
|JOH|LIU|ABC|DUY|DUY|57T2P|EOP|unknown|geo@xyx.com
|| RAVI|OLE|Hi|London|UK|NA|GB|unknown| WELSH@WELSH.COM
Rogério|Davies|Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Balázs| Roque| Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Johny|Peniç| Hi|USA|US|WLU|US|unknown| USA@WELSH.COM
Mike|Mane| Hi | USA |US|WLU|US|unknown| USA@WELSH.COM