Управление неструктурированными текстовыми данными в СУБД - PullRequest
0 голосов
/ 12 марта 2019

Я компетентен в R и C ++ и знаю, как обходить SQL-запросы, но не с базами данных, и мне нужен совет.Предположим, у меня есть текстовый файл, который выглядит следующим образом:

# Full information about Amazon Share the Love products 
    Total items: 548552

    Id:   0
    ASIN: 0771044445
      discontinued product

    Id:   1
    ASIN: 0827229534
      title: Patterns of Preaching: A Sermon Sampler
      group: Book
      salesrank: 396585
      similar: 5  0804215715  156101074X  0687023955  0687074231  082721619X
      categories: 2
       |Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Preaching[12368]
       |Books[283155]|Subjects[1000]|Religion & Spirituality[22]|Christianity[12290]|Clergy[12360]|Sermons[12370]
      reviews: total: 2  downloaded: 2  avg rating: 5
        2000-7-28  cutomer: A2JW67OY8U6HHK  rating: 5  votes:  10  helpful:   9
        2003-12-14  cutomer: A2VE83MZF98ITY  rating: 5  votes:   6  helpful:   5

для 500 000+ идентификаторов.Я хочу извлечь такие запросы, как "какая книга наиболее популярна в категории ххх?"или "какой клиент имеет самые высокие средние полезные отзывы?"или даже предложить «какие книги понравятся клиенту ххх?»

Однако я не знаю, как бороться с этим типом данных.Я думал о четырех базах данных / таблицах (что является правильным термином!):

  1. Id ASIN title group salesrank num_of_similar num_of_categoriestotal_reviews downloaded_reviews avg_rating_reviews

  2. Id customer_name customer_date customer_rating customer_votes customer_helpful

  3. Id category_name

  4. Id similar

Вот фрагмент того, как это будет выглядеть для 3-гоtable (чтобы вы могли сделать вывод, как я мог бы представить, как выглядит четвертая таблица):

Id       category_name
1        Books
1        Subjects
1        Religion & Spirituality

Однако у меня нет опыта преобразования неструктурированного текста в базы данных, и я искал некоторые рекомендации.С чего мне начать!Должен ли я заглянуть в NoSQL!Или MS Access!Использую ли я for-loop для извлечения информации (например, имя_категории)?Если так, то как!Я использую регулярное выражение?Я не нашел ни одного дружественного для начинающих учебника о том, как структурировать неструктурированный текст в управляемые базы данных, поэтому любые рекомендации будут высоко оценены.

...