Анализ таблиц с неизвестной структурой и отказоустойчивостью - PullRequest
0 голосов
/ 08 ноября 2018

Я хочу проанализировать таблицы с похожими данными, которые структурированы по-разному, и где заголовки также могут немного отличаться.

При сборе всех данных из суммирующих их таблиц я сталкиваюсь с несколькими проблемами.

Шаг 1: Я ищу ключевые слова заголовка.Поиск, если «cars == cars» невозможен, поскольку заголовок может выглядеть как «car», «Car» или «Cars».Существует также вероятность того, что в слове есть орфографическая ошибка.Таким образом, перебор всех возможных вариантов также может привести к ложному.Когда я искал решения этой проблемы, я узнал о нечеткой логике, но я был бы благодарен за другие подходы.

Шаг 2. Я нашел нужное ключевое слово в таблице, но как узнать, где находитсясвязанные данные размещены?Это может быть ниже этого, но также и правая ячейка рядом с ним.Существуют ли подходы для получения информации об общей структуре таблицы?

1 Ответ

0 голосов
/ 08 ноября 2018

Шаг a (часть 1) - наивной реализацией будет словарное расстояние (как вы хотите обработать опечатки)

Шаг а (часть 2) - используйте базу данных синонимов / тезаурус для поиска столбцов с одинаковыми именами

Шаг b (часть 1) - данные выровнены так же, как и заголовки - поэтому, если заголовки выровнены по вертикали, данные также будут

Шаг b (часть 2) - аналогичные данные будут иметь одинаковый тип данных (необработанная строка, номер, почтовый индекс), проверив вправо и вниз, вы можете определить, какое направление является реальным.

...