R: Структура данных для онтологии и веб-извлечения - PullRequest
1 голос
/ 22 марта 2011

Я хочу извлечь информацию из большого веб-сайта и создать онтологию.Что-то, что может быть обработано с помощью логики описания.

Какая структура данных рекомендуется для извлеченных данных HTML?

Мои идеи еще:
- Использовать фреймы данных, структуры таблиц
-Наборы и отношения (наборы пакетов и хорошие отношения)
- Графики

.

В конце я хочу экспортировать данные и планирую обработать их с помощью логики предикатов (или логики описания) с использованием другого языка программирования.

Я хочу использовать R для извлечения информации из HTML-страниц,Но, насколько я понимаю, в R (или в пакетах) нет прямой поддержки логики предикатов или RDF / OWL.

Поэтому мне нужно выполнить извлечение, использовать некоторую структуру данных в процессе и экспортировать данные.

Пример данных:

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"

Где данные экземпляра "SomeDocument", "DepartmentA" и "PersonA".

.

Если этосмысл, какое-то рассуждение (но, вероятно, не в R):

AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)

Ответы [ 2 ]

0 голосов
/ 24 марта 2011

Самое главное, как выглядят данные вашего сайта?Например, если в нем уже есть RDFa, вы бы использовали дистиллятор RDFa, чтобы вывести RDF;просто;сделанный.Тогда вы можете засунуть RDF в тройной магазин.Вы можете дополнить данные веб-сайта, создав свою собственную онтологию, которую вы бы запрашивали с помощью SPARQL. Если ваша онтология создает классы, эквивалентные данным, которые вы нашли на своем веб-сайте, то вы великолепны.Многие тройные хранилища могут быть запрошены как конечные точки SPARQL только через URL-адреса и возвращены в формате XML, поэтому даже если R не имеет пакетов SPARQL или OTL ontolgoy как таковых, это не означает, что вы вообще не можете запрашивать данные.

0 голосов
/ 23 марта 2011

Если для загрузки требуется много страниц, я бы использовал WGET для их загрузки.Для обработки файлов я бы использовал скрипт Perl для преобразования данных в более читаемый формат, например.разделенные запятой.Затем я бы обратился к какому-либо языку программирования, чтобы объединить его так, как вы описываете, однако я бы не стал использовать R в этом вопросе.

...