Я использую библиотеку spatie с xpdf в laravel для получения pdf-информации, загруженной пользователем.pdftotext работает для меня.Я отделяю whatiwant
от PDF с colon
, используя функцию preg_match php.
$re = '/\b:\s*\'\K[\w-]+/i';
$str = "Some text as: 'Nerad'";
if (preg_match($re, $str, $match)) {
echo $match;
}
Предположим, что мой pdf содержит одни и те же данные несколько раз.Как у меня есть один столбец с team_leader_name
.Но для пользователя может быть более 1 или 2 руководителей групп.
, и мои данные поступают в массив.я просто зацикливаю этот массив и получаю свои данные с помощью index[]
и сохраняю их в базу данных.
Но если я получу одни и те же данные 2 раза, как их распознать.
Демонстрация PDF:
Данные сотрудника
Данные директора Имя директора: ABC
Адрес директора: XYZ
Информация о руководителе группы
КомандаИмя лидера: ghi
Адрес лидера команды: kji
Имя лидера команды: asx
Адрес лидера команды: kji
Имя руководителя группы: plk
Адрес руководителя группы: kji
Теперь мне нужно отправить данные директора в отдельную таблицу, а данные лидеров группы - в отдельную таблицу,Выше pdf преобразуется в текст, а данные поступают в следующем формате:
Array
(
[0] => Array
(
[0] => ABC
[1] => XYZ
[2] => ghi
[3] => kji
[4] => asx
[5] => kji
[6] => plk
[7] => kji
)
)
Теперь у меня есть только эта информация.Это будет хорошо, если у меня нет нескольких данных с одинаковыми ключевыми словами из PDF.Но что, если у меня есть дубликаты в pdf. Есть ли другие preg_match или другое решение.Потому что мои слова перед двоеточием не изменятся.