Преобразование очень грязного файла .txt в таблицу R - PullRequest
0 голосов
/ 23 января 2020

У меня проблемы с преобразованием файла .txt, который очень грязный. Первоначально у меня был файл PDF (таблица в 700 страниц в том же формате), который я затем преобразовал в файл .txt с помощью пакета pdftools.

Файл .txt в настоящее время находится в очень грязном формате. По сути, я хочу избавиться от длинных текстов на каждой странице и создать таблицу, в которой будут храниться следующие столбцы: cert_id, cust_id sites, Legal_Name, MMM_Name, Phone, City, Country, State, RD_CCS. Ниже приведена идея о том, как я хочу, чтобы итоговая таблица выглядела (примечание: я не указывал все наблюдения и названия столбцов).

 cert_id   cust_id sites Legal_Name  ........... .....RD_CCS

  10-C-6666 503768  1     .                       27-Jun-2020 ACTIVE
  11-A-5555 17234   1     .                       20-Jun-2020 ACTIVE
  11-B-4444 67      2     .
  15-C-2222 32000   1     .                          .
  19-C-9999 322900  1     .                          .
  14-C-0000 323000  1     .                          .
  19-C-1111 7890    1     .                          .
  14-C-0045 4356    1     .                       14-Aug-2020 ACTIVE
  11-C-2356 7345    1     .                        4-Aug-2020 ACTIVE

Я немного растерялся, как подойти к этому выдайте и создайте фрейм данных или таблицу в R, используя файл .txt, так как его длина составляет 700 страниц.

В настоящее время я изучаю пакет tidyverse и функции readLines, но я не очень знаком с ним и не понимаю, как начать.

Вот ссылка на образец файла .txt

...