Идеи для построения системы управления документами - PullRequest
4 голосов
/ 19 июня 2009

Клиенту нужна система управления документами , и я собираю информацию об этом.

Я знаю о sharepoint & alfresco, но в этом случае я оцениваю необходимую информацию для ее создания с нуля, поэтому, пожалуйста, воздержитесь от использования любого из них (мы проводим оценку их отдельно, это все о разработке, а не о реализации существующего решения).

Это реквизиты:

  • Иметь очень конкретное требование от юридического управления документами, характерное для нашего местного правительства, но кроме этого:
  • Операция, похожая на Google Docs с точки зрения конечного пользователя
  • Нужна информация о магазине от 200+ конечных пользователей (ОБНОВЛЕНИЕ: действительно +700 конечных пользователей)
  • В основном офисные документы, pdf, текст. У меня уже есть извлечение простого текста из этих двоичных файлов.
  • Нет вики, нет создания портала, только рабочий процесс, но очень простой, это всего лишь управление файлами
  • Центральный репозиторий, общий доступ ко всей компании, интегрированный с Active directory
  • Быстрый поиск
  • Прозрачная интеграция с рабочим столом
  • Веб-интерфейс
  • Мультипликация, если возможно

Итак, вот что у меня на голове:

  • Хранение: я знаю, что sharepoint сохраняет все в БД (тоже на свежем воздухе?). Это кошмар, ИМХО. Я предпочитаю помещать метаданные в БД, а файлы на диск.

Я думаю о принудительном использовании ZFS в этом случае и использовании их возможностей для управления версиями, снимками и масштабированием. Или, может быть, использовать git в качестве хранилища данных (git будет работать нормально?)

Итак, где я могу узнать больше о том, как обрабатывать большой пул документов, в ZFS или любой обычной файловой системе? Например, как расположить структуру папок так, чтобы она легко управляла и быстро реагировала, легко создавала резервные копии и т. Д.

  • Метаданные: Я думаю, что в обычной БД здесь, но интересно, есть ли у вас больше заслуг, сохраните все в Lucene (у меня есть некоторый опыт работы с Lucene, но волнуйтесь, потому что Lucene не может быть объединен, верно?)

Если я использую поисковую систему в качестве базы данных метаданных, я могу сохранить некоторую работу (не требуется второй проход для индексации), но обычный движок базы данных является более стандартным.

  • Tech: я, вероятно, построю это в Django, PyLucene, Postgress и сделаю интеграцию оболочки для Windows (у меня нет проблем для этого).

Я буду признателен за любые советы или информацию о том, как правильно реализовать это решение.

Ответы [ 4 ]

1 голос
/ 19 июня 2009

Лично я нахожу требования "похожие на Google Docs" и "Прозрачная интеграция с рабочим столом" немного неопределенными, ИМХО. Но, судя по вопросу, вас больше волнует бэкэнд и хранилище документов, и вы больше думаете об использовании более открытого стека (с интеграцией в AD)?

В любом случае, лично я использую KnowledgeTree в качестве нашей Системы управления документами, и их реализация заключается в том, что все файлы находятся в файловом каталоге, а база данных будет отслеживать путь, соответствующие метаданные, журналы доступа и информация о версиях. В основном они сохранили несколько версий одного и того же файла, если документ был обновлен - что, я думаю, было достаточно честной реализацией идеи, учитывая, что документы Microsoft Office в основном являются двоичными (до 2003 года).

Возможно, вы захотите понять, сколько документов они имеют в настоящее время и сколько документов они ожидают, что будут поступать в эту систему ежедневно. (Или с другой точки зрения, какие документы они планируют хранить, обычно дают подсказки о том, какую нагрузку должен обрабатывать ваш сервер)

Я предполагаю, что, скорее всего, вы можете избежать установки локальных файловых систем и базы данных для хранения метаданных, если вы не уверены, что система будет обрабатывать огромную нагрузку документов ежедневно (представьте, что это Flickr для документов;)).

1 голос
/ 19 июня 2009
  1. SharePoint и Alfresco - это платформы, на которых вы можете внести некоторые изменения, поэтому даже их использование действительно означает, что вы что-то строите.

  2. SharePoint хранит большие двоичные объекты в БД по умолчанию, , но имеет способы поместить их в файловую систему

  3. Если вы делаете это самостоятельно, поддержите расширения главной страницы, которые приложения Office используют для взаимодействия с SharePoint и Alfresco, и предоставляйте документы с правильными заголовками, которые сообщают IE о запуске приложения. Таким образом, вы получаете ту же интеграцию с приложениями Office, что и SharePoint (пользователи действительно любят эту функцию) - это всего лишь простой протокол HTTP

  4. Если вы перейдете с SharePoint, моя компания, как бесплатная программа предварительного просмотра документов , которая может просматривать PDF и скоро будет иметь документы Office. Мы продаем основную технологию, но это только Windows.

  5. Мне нравится Django, и я использую его для всех личных проектов, но я действительно думаю, что .NET и Java будут иметь больше сторонней поддержки для того, что вам нужно, и большая часть вашего кода будет переносима на SharePoint или На свежем воздухе, если вы решите пойти таким путем позже.

РЕДАКТИРОВАТЬ : Более подробная информация о # 3 по запросу

http://blogs.msdn.com/mikefitz/archive/2005/03/14/395112.aspx http://blogs.msdn.com/stcheng/archive/2008/12/17/wss-use-rpc-protocol-to-access-wss-v3-site.aspx Официальные документы: http://msdn.microsoft.com/en-us/library/ms442469.aspx

0 голосов
/ 30 апреля 2018

Вы пытаетесь построить систему управления документами? На свежем воздухе и SharePoint? Alfresco & SharePoint - это решения для управления проектами, а не решения для управления документами. Alfresco - это своего рода DMS-решение, но в этом нет ничего хорошего. Да! Для решения по управлению проектами это хорошее программное обеспечение.

Я предлагаю вам купить решение для управления документами, которое является юридическим управлением для документов, а также специфичным для местного правительства. Есть некоторые поставщики систем управления документами, такие как Laserfiche & OnBase, их работа аналогична Google Docs. Вы можете создать учетную запись для каждого сотрудника фирмы или бизнеса.

Да, все документы в формате MS Office, такие как Ms-Word, Ms-excel, PDF & PPT

Рабочий процесс с системой управления документами очень эффективен и прост в обращении

Да, с помощью DMS вы можете легко найти файл за несколько минут (Laserfiche Software занимает 10 минут, чтобы извлечь файл или папку) Laserfiche DMs - это программное обеспечение для веб-интерфейса. Вы можете войти в программу и легко получить доступ к файлу или папке из разных мест

Хранение

В системе DMS все данные защищены и хранятся в облачном хранилище. Вы можете легко добраться до документа, просто войдя в свою учетную запись. В случае утери или любой другой ошибки вы можете получить потерянные данные от компании.

Метаданные

Система DM является обычным механизмом базы данных, поскольку все бизнес-данные регулярно хранятся в облачном хранилище.

Tech

Нет необходимости строить что-либо; Вам нужно только приобрести программное обеспечение DMS. Я рекомендую вам Laserfiche, потому что мы используем их услуги

0 голосов
/ 06 сентября 2013

Под открытым небом должно быть отличное решение здесь. Он поддерживает все ваши требования, кроме правительственных.

Но если вы строите "с нуля", может быть, по крайней мере, воспользуетесь идеями?

Хранение: содержимое файла сохраняется в файловой системе. Простое управление, хранение, резервное копирование и прочее. Файлы не сохраняют имена, их содержимое сохраняется в двоичном формате, а файл называется хэшем (я полагаю, хэш содержимого?)

Метаданные: помещается в базу данных. Быстрый доступ, изменение, обновление и прочее. У каждого узла есть свойства - это имя, заголовок, описание, даты, информация аудита, все, что вам нужно. Это просто информация, и все это сохраняется в таблице «свойств».

Поиск: Alfresco использует Solr для поиска, раньше это был Lucene. У меня были довольно большие инсталляции, и если вы добавите lucene index на SSD, он будет очень быстрым. (Люцен в любом случае быстр). Он индексирует как содержимое файла, так и свойства, поэтому вы очень быстро получаете идентификатор узла.

В Alfresco реализованы CIFS, а также webdav, ftp и еще много чего. Дело в том, что вы можете просто смонтировать его на рабочие столы пользователей в виде папок или дисков.

Веб-интерфейс есть, есть центральный репозиторий, все требования. А так как это открытый исходный код, вы можете получить часть этого источника и использовать его в своем проекте. Хотя было бы намного лучше взять Alfresco Community и просто внести свой вклад, если вы чувствуете себя хорошо.

...