Я хочу извлечь информацию из большого веб-сайта и создать онтологию.Что-то, что может быть обработано с помощью логики описания.
Какая структура данных рекомендуется для извлеченных данных HTML?
Мои идеи еще:
- Использовать фреймы данных, структуры таблиц
-Наборы и отношения (наборы пакетов и хорошие отношения)
- Графики
.
В конце я хочу экспортировать данные и планирую обработать их с помощью логики предикатов (или логики описания) с использованием другого языка программирования.
Я хочу использовать R для извлечения информации из HTML-страниц,Но, насколько я понимаю, в R (или в пакетах) нет прямой поддержки логики предикатов или RDF / OWL.
Поэтому мне нужно выполнить извлечение, использовать некоторую структуру данных в процессе и экспортировать данные.
Пример данных:
SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA
DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA
PersonA hasName "John"
Где данные экземпляра "SomeDocument", "DepartmentA" и "PersonA".
.
Если этосмысл, какое-то рассуждение (но, вероятно, не в R):
AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)