оболочки соединяют неправильно совпадающие буквы с эмодзи - PullRequest
1 голос
/ 26 февраля 2020

У меня есть два файла, каждый из которых имеет два столбца: (Count | Term). Где столбец термина в Unicode, а некоторые термины смайлики.

Я пытаюсь объединить оба файла на основе столбца термина (второй столбец), используя этот код:

 join -j 2 -o 1.1,1.2,2.1,2.2 <(sort -k2 File1.txt) <(sort -k2 File2.txt) > join_File1_File2.txt

Когда я присоединяюсь к у меня есть два файла, которые выводятся правильно, за исключением некоторых неправильных строк, в которых эмодзи соединены с буквами и символами, такими как:

11 ????????∫ 4 ?️?️?️?️?️

484 ……… 79 ✊✊ 101

27 ——————————————— 25 ????????????

У меня есть даже некоторые неправильно подобранные смайлики, подобные этому:

39 ? 726 ?

И некоторые неправильно подобранные символы, такие как:

2 ° ′ 1 ° ☀

Вот пример файлов: File1, File2 и JoinFile

File1:

   1 ”…………
   1369 i
   1347 …
   1339 it
   8 ⋅??⃗
   1322 with
   1 ?−‾√?‾√∴
   1302 are
   1299 your
   1276 my
   39 ?
   1272 with
   1261 from
   1255 this
   1244 what

Файл 2:

   1437 to
   1435 your
   1433 are
   1421 in
   83 ⛔️??
   1411 and
   1404 for
   1 ”???
   1384 you
   1373 on
   726 ?
   1347 …
   13 ❤️?????
   1333 this
   1322 with

Join_File1_File2

1 ”………… 1 ”???
1347 … 1347 …
39 ? 726 ?
8 ⋅??⃗ 83 ⛔️??
1 ?−‾√?‾√∴ 13 ❤️?????
1302 are 1433 are
1255 this 1333 this
1272 with 1322 with
1322 with 1322 with
1299 your 1435 your
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...