Сравните строки индекса MySQL PHP - PullRequest
0 голосов
/ 19 мая 2011

Есть ли способ извлечь только текст из документа Microsoft onenote на PHP? Я пытался использовать регулярные выражения, чтобы сопоставить слова длиннее 3 символов, но я все еще получаю строки мусора (т.е. yaKmUrD). Есть ли способ извлечь только значимый текст?

Спасибо, Chris

Edit: Я нашел способ извлечь большую часть текста. (Я просто использовал регулярные выражения для удаления всех не-ascii символов и отфильтровал числа или слова длиной менее 4 символов. Это не идеально, но работает для создания строки ключевого слова.) Теперь у меня есть таблица со столбцом имени файла и текстовым столбцом который содержит текст документа. Перед сохранением в текстовом столбце данные были отфильтрованы на наличие дубликатов, а ключевые слова были разделены запятыми. Сейчас я ищу простой способ сравнить эти текстовые поля для каждого файла и вывести% соответствия. Есть ли функция / метод, чтобы сделать это в MySQL, или я должен был бы сделать это программно через скрипт? Спасибо за помощь.

...