Я использую Word Interop и C # для создания программы на работе, и одной из ее функций является подсчет слов.
Теперь это не может быть подсчетом слов, так как мне нужно эмулироватьколичество слов в том же инструменте CAT, используемом на работе.
Одна из обнаруженных мной проблем заключается в том, что инструмент CAT использует форматирование текста для разделения слов.Это означает, что если у меня есть слово 1st с надстрочной надписью st, слово будет считаться одним словом (поскольку ничего не разделяет два), а инструмент CAT подсчитывает 2 слова в соответствии с изменением формата текста.
Дело в том,Инструмент CAT отслеживает изменения формата, и эта информация разбивает слово.
Итак, я мог бы переходить от слова к слову, символ за символом и проверять все возможности (шрифт, полужирный, курсив и т. Д.), Но этоочень медленно работайте с несколькими документами, каждый из которых содержит тысячи слов.
Кто-нибудь знает лучшее решение?