Я компетентен в R и C ++ и знаю, как обходить SQL-запросы, но не с базами данных, и мне нужен совет.Предположим, у меня есть текстовый файл, который выглядит следующим образом:
# Full information about Amazon Share the Love products
Total items: 548552
Id: 0
ASIN: 0771044445
discontinued product
Id: 1
ASIN: 0827229534
title: Patterns of Preaching: A Sermon Sampler
group: Book
salesrank: 396585
similar: 5 0804215715 156101074X 0687023955 0687074231 082721619X
categories: 2
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]
|Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]
reviews: total: 2 downloaded: 2 avg rating: 5
2000-7-28 cutomer: A2JW67OY8U6HHK rating: 5 votes: 10 helpful: 9
2003-12-14 cutomer: A2VE83MZF98ITY rating: 5 votes: 6 helpful: 5
для 500 000+ идентификаторов.Я хочу извлечь такие запросы, как "какая книга наиболее популярна в категории ххх?"или "какой клиент имеет самые высокие средние полезные отзывы?"или даже предложить «какие книги понравятся клиенту ххх?»
Однако я не знаю, как бороться с этим типом данных.Я думал о четырех базах данных / таблицах (что является правильным термином!):
Id
ASIN
title
group
salesrank
num_of_similar
num_of_categories
total_reviews
downloaded_reviews
avg_rating_reviews
Id
customer_name
customer_date
customer_rating
customer_votes
customer_helpful
Id
category_name
Id
similar
Вот фрагмент того, как это будет выглядеть для 3-гоtable (чтобы вы могли сделать вывод, как я мог бы представить, как выглядит четвертая таблица):
Id category_name
1 Books
1 Subjects
1 Religion & Spirituality
Однако у меня нет опыта преобразования неструктурированного текста в базы данных, и я искал некоторые рекомендации.С чего мне начать!Должен ли я заглянуть в NoSQL!Или MS Access!Использую ли я for-loop для извлечения информации (например, имя_категории)?Если так, то как!Я использую регулярное выражение?Я не нашел ни одного дружественного для начинающих учебника о том, как структурировать неструктурированный текст в управляемые базы данных, поэтому любые рекомендации будут высоко оценены.