Извлечение текста Java и проектирование структуры данных - PullRequest
0 голосов
/ 19 августа 2010

У меня есть огромный набор данных таблиц в формате документов Open Office 3.0 .

   Table 1:
    (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) 
    (-20,90) |(-20,0) |(-5,1) |(5,1)  |(10,0)
    ...

Как и у меня, у меня есть n таблиц. Все эти таблицы являются нечеткими функциями принадлежности к множеству. Проще говоря, это вычислительные модели, в соответствии с которыми мне приходится обрабатывать входные данные. Существует множество таких таблиц с разными строками. размер и размер столбца 3/4. Эти данные не изменятся после загрузки.

Пример: Когда я получу значение x в диапазоне от -20 до 90. Я буду применять первое правило (приведенное выше). Предположим, что это -1 (что находится между значениями от -20 до -5). Затем у меня есть найти соответствующее значение между 0 и 1.

Мой Первый вопрос - как извлечь все данные из таблиц в формате документа, чтобы я мог использовать его в своей Java-программе. Я немного знаю Python и знаю, что Python может быть полезен в таких случаях. случаи. Но тогда, как использовать его в моей программе Java.

Во-вторых Какую структуру данных лучше всего использовать в таком сенарио?

Примечание: Я не использую какую-либо базу данных. Поэтому я бы предпочел хранить таблицы либо в xml, либо в каком-либо другом формате, чтобы я мог легко загрузить их в программу. Я также думаю о создании подходящей структуры данных, а затем сериализовать их, чтобы я мог загружать их при необходимости вместо анализа файла и воссоздания структуры данных. Пожалуйста, оставьте свои комментарии.

1 Ответ

1 голос
/ 19 августа 2010

Для анализа документа OpenOffice в Java (для извлечения данных) вы можете использовать специальный API, например ODFDOM .Я думаю, что это решение очень сложно для того, что вам нужно.Более простым решением было бы извлечь вручную таблицу OpenOffice и поместить ее в более удобный для анализа формат в Java:

  • CSV
  • База данных (MySQL и т. Д.)
...