Я пытаюсь обработать некоторые таблицы, выполняя такие вещи, как прогнозирование заголовка таблицы из содержимого ячейки таблицы. Таблицы довольно сильно различаются в том смысле, что они могут выглядеть так:
10% статей имеют столбец A справа от столбца B
10% статей имеют столбец справа от столбца C
10% статей имеют столбец справа от столбца D
10% статей имеют столбец, объединенный и заполненный заголовком и помещенный справа от столбца E
.... вариация продолжается.
Для таких данных мой старший думает, что нет смысла пытаться предсказать содержимое ячейки по вещам слева или справа. Поэтому не имеет смысла использовать модель векторного пространства слов. Я считаю, что использование модели векторного пространства слова не вредит. Он не будет побежден tf / idf, который выбрасывает всю информацию о вещах слева и справа от вас.
Есть мнение по этому поводу? Спасибо.