Извлечь все / уникальные слова из MS Word в C # без стороннего инструмента - PullRequest
0 голосов
/ 04 сентября 2011

Я должен извлечь все слова из файла MS Word и затем сохранить их в таблице для дальнейшего поиска.Есть ли способ прочитать файл msword слово за словом.Я знаю, что могу скопировать весь текст и поместить его в переменную, а затем на пробел или на табуляцию начать читать, но есть ли лучший способ?

Я прочитал блог или страницу, где это объяснялось, но потерял эту страницу:- /

1 Ответ

0 голосов
/ 04 сентября 2011

Это бывший пост SO, в котором вы видите, как получить весь текст из слова в переменную, используя C #:

Как я могу получить каждую страницу текста в документе Word отдельно (используя.NET)?

После этого используйте string.Split(" "), чтобы разбить текст на массив слов.

РЕДАКТИРОВАТЬ: Здесь

http://www.dotnetperls.com/string-split

вы найдете несколько примеров для разделения текста на слова с помощью регулярных выражений.Этот

 Regex.Split(s, @"\W+")  

может удовлетворить ваши потребности.

...