Как автоматически определять семантические типы данных в строке? - PullRequest
0 голосов
/ 29 октября 2018

Мне нужно обнаружить / аннотировать (семантические) типы данных строки, как это сделал бы человек.

Например, что-то вроде следующего:

string = "1,000,000 €"
// Integer with value 1000000
// and/or
// Amount in Currency: {Amount: 1000000.00, Currency: €}

string = "23 October 2017"
// Date with value: 2017-10-23

string = "USA"
// String with value "USA"
// or maybe even: Nation with value: United States of America

string = "Tim"
// String "Tim"
// First Name with value: "Tim"

Существует ли библиотека / API, которая может обрабатывать некоторые случаи?

Например, инструменты подготовки данных, такие как Trifacta или Talend, иногда могут обнаруживать семантические типы данных. Однако эти результаты обнаружения нельзя использовать в рабочем процессе, например в скрипте Python.

...