нужен документ для извлечения текста из изображения с помощью onenote Interop? - PullRequest
3 голосов
/ 27 августа 2011

Мне нужно сделать простую Программу, для которой нужно извлечь текст из изображения с помощью Onenote Interop?Может ли кто-нибудь предложить мне соответствующий документ для моей концепции, пожалуйста?

1 Ответ

3 голосов
/ 10 сентября 2011

Текст, распознаваемый OCR OneNote, сохраняется в элементе one: OCRText в структуре файла XML в OneNote.например,

<one:Page ...>
    ...
    <one:Image ...>
        ...
        <one:OCRData lang="en-US">
            <one:OCRText><![CDATA[This is some sampletext]]></one:OCRText>
        </one:OCRData>
    </one:Image>
</one:Page>

Вы можете увидеть этот XML с помощью программы под названием OMSPY (она показывает вам XML за страницами OneNote) - http://blogs.msdn.com/b/johnguin/archive/2011/07/28/onenote-spy-omspy-for-onenote-2010.aspx

Чтобы извлечь текст, вы должны использовать OneNote COMвзаимодействие (как вы указали).например,

//Instantialize OneNote
ApplicationClass onApp = new ApplicationClass();

//Get the XMl from the selected page
string xml = "";
onApp.GetPageContent("put the page id here", out xml);

//Put it into an XML document (from System.XML.Linq)
XDocument xDoc = XDocument.Parse(xml);

//OneNote's Namespace - for OneNote 2010
XNamespace one = "http://schemas.microsoft.com/office/onenote/2010/onenote";

//Get all the OCRText from the page
string[] OCRText = xDoc.Descendants(one + "OCRText").Select(x => x.Value).ToArray();

См. документацию "Интерфейс приложения" на MSDN для получения дополнительной информации - http://msdn.microsoft.com/en-us/library/gg649853.aspx

...