Как извлечь указанные сегменты из отсканированного документа с помощью машинного обучения - PullRequest
1 голос
/ 17 июня 2019

Я использовал API-интерфейс обнаружения тензорного потока для обучения изображений. И было успешно обнаружить помеченные объекты. Теперь я хочу, чтобы та же концепция была реализована при извлечении текста. Используя глубокое изучение, как я могу извлечь информацию из документа. Например, извлечение раздела опыта из резюме. Я могу создать набор данных для опыта и обучить их. 1. Я хочу знать, как я могу использовать эту обученную модель для извлечения контента из резюме?

  1. Существует ли способ извлечения указанной информации из отсканированного документа ?
  2. А как реализовать концепцию машинного обучения в этом методе?

Если моя логика неверна. пожалуйста, помогите мне разобраться.

1 Ответ

0 голосов
/ 17 июня 2019

Kaggle - лучшее место для поиска наборов данных такого рода.

Проверьте эту ссылку:

Публикации включают Нью-Йорк Таймс, Брейтбарт, CNN, Бизнес Инсайдер, Атлантика, Fox News, Talking Points Memo, Buzzfeed News, Национальное обозрение, New York Post, Guardian, NPR, Reuters, Vox и The Washington Post

...