Google уточняет и извлекает данные из freebase для большого набора данных, чтобы создать столбец из URL не работает - PullRequest
2 голосов
/ 06 марта 2012

У меня есть проект уточнения Google с 36k строками данных. Я хотел бы добавить еще один столбец с извлечением данных JSON из URL-адреса freebase. Мне удалось заставить его работать с небольшим набором данных, но когда я запустил его в этом проекте, потребовалось несколько часов для обработки, а затем большинство результатов были пустыми. Я получил некоторые результаты с данными, хотя. Есть ли способ ограничения количества строк, из которых будут извлекаться данные, или лучший способ получения данных из URL.

Спасибо!

1 Ответ

2 голосов
/ 07 марта 2012

Если вы добавляете данные из Freebase, вам, вероятно, лучше использовать «Добавить столбец из Freebase», а не «Добавить столбец путем извлечения URL».

Фасеты являются одними из самых мощныхФункции Google Refine, и они могут быть использованы для управления всеми видами вещей.В этом случае вы могли бы использовать фасет для выбора подмножества ваших данных и выполнять выборку только для этого подмножества (а затем повторить с другим подмножеством).

Следующая версия Refine будет включать в себя улучшенные отчеты об ошибкахпо результатам выборки URL-адресов, чтобы помочь отладить подобные проблемы, но убедитесь, что вы соблюдаете все ограничения удаленного сайта в отношении общего количества запросов, запросов в секунду и т. д.

...