Ресурс Azure для обработки неструктурированных источников данных - PullRequest
0 голосов
/ 14 марта 2019

у нас есть требование извлекать темные данные из неструктурированных источников, таких как письма, рад-отчеты и т. Д. Пожалуйста, предложите ресурс Azure для извлечения данных из распространенных форматов документов: DOC, DOCX, PDF, RTF, TXT, HTML и т. Д., А затем сделать анализ на извлеченных данных.

1 Ответ

0 голосов
/ 15 марта 2019

Звучит так, будто вы просто хотите извлечь необработанный текст или изображения из этих документов форматированного текста. Если только это сделать, некоторые библиотеки анализа различных документов - это ваши реальные потребности.

Вот некоторые библиотеки на Java или Python для этого. Если вы используете .NET, с которым я не знаком, вы можете выполнить поиск в Google или Bing, чтобы найти альтернативу .NET.

  1. Для анализа офисного документа, такого как DOC, DOCX: для Java, Apache POI - хорошая библиотека для извлечения данных из файлов MS Office; для Python, похоже, не существует какого-либо пакета для этого, кроме использования COM-объекта, такого как Word.Application или IronPython ( чтение / запись файлов MS Word в Python ) в .NET в Windows.
  2. Для анализа PDF-файлов: Apache PDFBox, jPDFText для Java и PyPDF2 для Python.
  3. Для чтения файла формата RTF: Java изначально поддерживает через javax.swing.text.rtf.RTFEditorKit, который вы можете получить образец кода через поиск; как # 1, также, кажется, нет для Python.
  4. Для анализа файлов HTML: jsoup для Java и BeautifulSoup & HTMLParser для Python лучше всего подходят для извлечения данных из HTML.
  5. Для чтения файлов формата TXT, я думаю, это просто для любых языков. Но для извлечения ценной информации из текстового содержимого полезны Stanford NLP для Java и NLTK для Python, также с использованием Azure Text Analytics API Cognitive Service может помочь сделать некоторые, такие как извлечение ключевых фраз и определение языка.
  6. Apache Tika для анализа контента также является хорошим решением. Даже вы можете развернуть его отдельно и вызывать его REST API через Python, другие языки.
  7. Если вы хотите извлечь текст из изображений, вы можете использовать Azure Computer Vision API Cognitive Services для извлечения печатного текста или рукописного текста или использовать стороннюю библиотеку, такую ​​как Tess4J или другие, которые вы искали в GitHub.

Все вышеперечисленное практически зависит от сторонних комплектов разработчика без ресурсов Azure. Однако вы можете хранить эти документы в хранилище Azure и обрабатывать их на виртуальной машине Azure или в пакетных службах, даже чтобы анализировать данные извлечения в Azure Jupyter Notebook или использовать Azure ML для проведения более глубоких исследований.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...