У меня есть два файла, каждый из которых имеет два столбца: (Count | Term). Где столбец термина в Unicode, а некоторые термины смайлики.
Я пытаюсь объединить оба файла на основе столбца термина (второй столбец), используя этот код:
join -j 2 -o 1.1,1.2,2.1,2.2 <(sort -k2 File1.txt) <(sort -k2 File2.txt) > join_File1_File2.txt
Когда я присоединяюсь к у меня есть два файла, которые выводятся правильно, за исключением некоторых неправильных строк, в которых эмодзи соединены с буквами и символами, такими как:
11 ????????∫ 4 ?️?️?️?️?️
484 ……… 79 ✊✊ 101
27 ——————————————— 25 ????????????
У меня есть даже некоторые неправильно подобранные смайлики, подобные этому:
39 ? 726 ?
И некоторые неправильно подобранные символы, такие как:
2 ° ′ 1 ° ☀
Вот пример файлов: File1, File2 и JoinFile
File1:
1 ”…………
1369 i
1347 …
1339 it
8 ⋅??⃗
1322 with
1 ?−‾√?‾√∴
1302 are
1299 your
1276 my
39 ?
1272 with
1261 from
1255 this
1244 what
Файл 2:
1437 to
1435 your
1433 are
1421 in
83 ⛔️??
1411 and
1404 for
1 ”???
1384 you
1373 on
726 ?
1347 …
13 ❤️?????
1333 this
1322 with
Join_File1_File2
1 ”………… 1 ”???
1347 … 1347 …
39 ? 726 ?
8 ⋅??⃗ 83 ⛔️??
1 ?−‾√?‾√∴ 13 ❤️?????
1302 are 1433 are
1255 this 1333 this
1272 with 1322 with
1322 with 1322 with
1299 your 1435 your