Разобрать указатель учебника - PullRequest
0 голосов
/ 20 октября 2018

Я хотел бы проанализировать указатель учебника, но его формат непоследователен.Любые предложения о том, как обрабатывать эти записи.

Слово в слове
слова, ## - ###
Слово в словах, ###
Родительское слово, ##
дочернийслова, ##
слова, которые ничего не значат без родителя, ###
больше слов без значения без родителя, ##, ##
слова,
##, ###-###, ###
воспитание детейWord, ### - ###
дочерние слова, ##
Правильное существительное, связанное с родительским воспитанием, но в остальном не имеет значения, ###

Цель состоит в том, чтобы иметь возможность отсортировать их по первымотображение номера страницы и добавление дочернего текста к тексту родителя и использование номера дочерней страницы;заменяя старого ребенка.Так что Parenting Word child words, ## существует.

1 Ответ

0 голосов
/ 21 октября 2018

Я вернусь, отредактирую заказ и загрузлю диаграмму.

  • , если в записи есть номер страницы (важно только для родителей с детьми)
  • , если запись в алфавитном порядкек записи до и после нее (поймает некоторые из имен собственных)
  • если запись написана заглавными буквами (перехватывает все существительные, кроме имен существительных)
  • заполняет информацию о родителях с детьми при достижении нового правдоподобного родителя(заглавная, не в алфавитном порядке с последним ребенком, возможно, просматривая номера страниц на наличие больших пробелов).
  • номерам страниц может быть добавлен только символ 'f' для обозначения цифры.<- злоупотребляйте этим с помощью нотации с плавающей запятой. </li>
  • создайте связанный список родителей (чтобы помочь поймать проскальзывание имен собственных)
    • информация о родителях должна быть динамической, так что если имя существительное действительно классифицируется какродитель, если это должен быть ребенок, его можно быстро преобразовать в правильного родителя.

Чтобы определить, является ли это имя существительным, сравните номера страниц, если эта же страницачисло или в пределах разумного диапазона упоминается в предыдущем родителе или дочерних элементах родителя, помечается как потенциальное собственное существительное, которое должно быть просмотрено человеком.

  • Установите разделитель запятой с некоторой магией вокруг, чтобы искать«[0-9]» после и слово перед.И мы знаем, что [0-9] f? \ N [AZ] заканчивает запись.

Это совсем не быстро, но для <10000 строк текста это не должно быть слишкомсложно.Грубая сила! </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...