У меня проблемы с преобразованием файла .txt, который очень грязный. Первоначально у меня был файл PDF (таблица в 700 страниц в том же формате), который я затем преобразовал в файл .txt с помощью пакета pdftools.
Файл .txt в настоящее время находится в очень грязном формате. По сути, я хочу избавиться от длинных текстов на каждой странице и создать таблицу, в которой будут храниться следующие столбцы: cert_id, cust_id sites, Legal_Name, MMM_Name, Phone, City, Country, State, RD_CCS. Ниже приведена идея о том, как я хочу, чтобы итоговая таблица выглядела (примечание: я не указывал все наблюдения и названия столбцов).
cert_id cust_id sites Legal_Name ........... .....RD_CCS
10-C-6666 503768 1 . 27-Jun-2020 ACTIVE
11-A-5555 17234 1 . 20-Jun-2020 ACTIVE
11-B-4444 67 2 .
15-C-2222 32000 1 . .
19-C-9999 322900 1 . .
14-C-0000 323000 1 . .
19-C-1111 7890 1 . .
14-C-0045 4356 1 . 14-Aug-2020 ACTIVE
11-C-2356 7345 1 . 4-Aug-2020 ACTIVE
Я немного растерялся, как подойти к этому выдайте и создайте фрейм данных или таблицу в R, используя файл .txt, так как его длина составляет 700 страниц.
В настоящее время я изучаю пакет tidyverse и функции readLines, но я не очень знаком с ним и не понимаю, как начать.
Вот ссылка на образец файла .txt