Получить отдельный список слов и считать из MS Office документов с помощью C # - PullRequest
0 голосов
/ 13 июля 2009

Я ищу эффективный способ чтения необработанного текста из любого офисного документа MS (word, excel или powerpoint), а затем отображения отдельного списка слов и подсчета того, сколько раз это слово используется. Если возможно, я бы хотел исключить общие слова ('и', 'to', 'the' и т. Д.).

Как лучше всего добиться этого в C #?

1 Ответ

1 голос
/ 13 июля 2009

Вы должны взглянуть на Lucene.NET - он имеет возможность создавать словарные индексы из различных источников, включая, я полагаю, текстовые документы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...