парсинг cv файла - PullRequest
       1

парсинг cv файла

1 голос
/ 18 января 2011

Я хочу написать код на Java или PHP (Codeigniter) для извлечения информации, такой как электронная почта и номер телефона пользователя, загружающего резюме hbis или cv на сайт.По сути, я хочу создать парсер cv.

Нужна помощь для этого.

спасибо

РЕДАКТИРОВАТЬ Формат cv будет в doc.

Ответы [ 5 ]

5 голосов
/ 18 января 2011

Поскольку нет стандартного формата CV, синтаксический анализ будет практически невозможен.

Вместо этого рассмотрите возможность сбора контактной информации в виде HTML при загрузке.

1 голос
/ 18 января 2011

Вы должны использовать Python и написать свой собственный скребок, это легко, и это может быть сделано очень быстро в вашем случае с такими модулями, как красивый суп, urllib2 ...

что это все о

красивая документация супа

1 голос
/ 18 января 2011

Я бы посоветовал вам построить его с помощью набора регулярных выражений. Если вы просто хотите извлечь номер телефона и отправить электронное письмо, парсер очень прост. Это будет работать почти на 100% для электронной почты и (я считаю) 98% для телефонных номеров.

Если вы хотите извлечь другую информацию, она будет более сложной, поскольку не существует стандартов для резюме; информация может быть отформатирована разными способами. В любом случае, удачи!

0 голосов
/ 31 марта 2017

Как сказал @Corbin, стандартного формата CV не существует. Это будет довольно сложно разобрать со 100% точностью.

Тем не менее, вы можете попробовать Apache Tika - инструментарий анализа контента для анализа резюме в формате doc / docx. Apache также поддерживает множество форматов документов, включая pdf, txt, xml, odf и т. Д.

Кстати, извлечение адреса электронной почты и номера телефона из резюме может быть достигнуто с помощью нескольких строк кода с помощью регулярных выражений после получения всего содержимого из cv с помощью Apache Tika .

Дайте мне знать, если вы застряли.

Надеюсь, это поможет!

Примечание- (я работаю над резюме резюме).

0 голосов
/ 18 января 2011

То же AlexR.Если ВСЕ, что вы хотите найти, это адрес электронной почты и номер телефона, вы можете сканировать строки символов в соответствующем формате.Пара простых регулярных выражений может сделать это довольно надежно.Даже это не будет 100%.Если кто-то включил, «Изучил Java @ Technocorp. Гражданин США».и т. д. Вы можете легко обмануть себя, думая, что это адрес электронной почты "java@technocorp.us".Хорошо, это напряженный пример, но это тот тип вещей, который сбивает синтаксический анализ естественного языка.

Если вы хотите большего, нет простого ответа.Вы можете искать по ключевым словам, например, чтобы найти, куда он ходил в школу, вы можете искать слова «колледж» или «университет».Но даже тогда кто-то может поставить «Выпускник Foobar College» или «College: Foobar» или «BA from Foobar» или многие другие возможные форматы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...