Как разделить динамический абзац, используя разделители из нескольких слов? - PullRequest
0 голосов
/ 07 декабря 2018

Я новичок в UI Path, но имею средний опыт работы с VB.Это мой сценарий:

1.) Я скрининг данных из файла PDF.Успешно с этим.

2.) Это мой пример соскребенных данных экрана:

Description                        Amount Tax
Flights from Point a to Point b     10     1
Flights from Point b to Point c     10     1
Return Flights from Point c to      20     2 
point a 2x
Flights from Point d to Point       40     4 
e 
flights from Point a to point d     30     3
Return Flights from Point d to      30     3
Point a 
SERVICE FEE                         1      0.1

3.) Мне удалось удалить цифры и осталось только символы описания.

Flights from Point a to Point b
Flights from Point b to Point c
Return Flights from Point c to
point a 2x
Flights from Point d to Point
e 
flights from Point a to point d
Return Flights from Point d to
Point a 
SERVICE FEE

5.) Я разделил этот текст.Я создал текстовый файл, в котором хранятся ВОЗМОЖНЫЕ разделители, чтобы разделить описание.

Delimiters.txt

2x
Flights from
Return Flights
flights from
SERVICE

Это пример выходных данных.

*Flights from Point a to Point b

*Flights from Point b To Point c
Return 
*Flights from Point c to
point a 
*2x

*Flights from Point d to Point
e 

*flights from Point a to point d

*Return Flights From Point d To
Point a 

*SERVICE FEE

Пример вывода:

enter image description here

Я понял, что моя проблема:

1.) Мой разделительработает правильно при разделении описания, но разделители с одним и тем же словом разделяют описание несколько раз.Лучший пример - 2x Flights from Point d to Point e, с помощью разделителя 2x я могу разделить правильно, но поскольку у него есть еще один разделитель внутри (Flights from), он снова разбивает строку на Flights from Point d to Point e, оставляя 2x снаружи.

2.) При очистке экрана данные в файле PDF форматируются по-разному для каждой страницы,

, например, на первой странице:

Flights from Point a to Point b 10 1

затем на второй странице у нас есть:

Flights from Point a 10 1 to Point b

Как я могу логически разбить эти по-разному отформатированные строки?

Спасибо за продвинутый и счастливый код!

...