Войти

Запомнить

Регистрация

Лента
Топ
Теги
Новая

Eran Milo 05 июня 2018 13

Поиск шаблона в дампе Википедии

0 голосов

Eran Milo / 05 июня 2018

Я пытаюсь сделать некоторое извлечение отношений в дампе Википедии.

Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML / JSON (15 ГБ сжатых, 50 ГБ несжатых)).

Каков наилучший способ сделать это?Обычные алгоритмы сопоставления строк?Используете ElasticSearch-подобные технологии?Если да, то как?

elasticsearch
полнотекстовой поиск
википедия
информационно-экстракция

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Тессеракт в конкретной c информации
Как я могу автоматически преобразовать данные переписи населения США (из сводных файлов) в CSV?
Есть ли способ обновить контактную информацию учетной записи AWS в Cloudchekr? для соответствия PCI DSS
использовать заголовок раздела для устранения неоднозначности абзаца
Извлечение групп неструктурированного текста для последующего НЛП?
Таблица данных не загружается в Selenium после нажатия на кнопку отправки формы
Практические подходы к извлечению структурированных данных из простого текста: поиск идей и отзывов
Как сделать, чтобы просторная база правил соответствовала только тому, что находится между заданным шаблоном
Извлечение информации из PDF-счетов
Извлечение информации из документов формы

...