AI / Deep Learning подход, чтобы судить ссылки в статье? - PullRequest
0 голосов
/ 29 июня 2018

Это настоящая часть моей работы. Чтобы документы учеников соответствовали заданному стандарту формата, я должен оценить тип ссылки в работах учеников, разделить их пункты (автор, название, название журнала, год и т. Д.), А затем дать совет по модификации, если какой-либо элемент отсутствует. Это утомительно, поэтому после нескольких лет работы я слишком устаю. Я думаю сделать это путем программирования.

В статье будут цитироваться многие виды ссылок, например, журнал, диссертация, книга и так далее. У них другой формат. С другой стороны, если я отправляю статью в другой журнал, возможно, мне придется встретиться с другим форматом

Я ищу алгоритмы (вы можете прочитать мою предыдущую попытку, использующую регулярное выражение. Но это, очевидно, не удастся, если используются более разнообразные форматы. python re не может найти это сгруппированное имя ), которое может

  1. судите статью, является ли журнал, диссертация, книга ...
  2. отдельный автор, название статьи, название книги, издатель, год и т. Д. Обратите внимание, что может быть пунктуация в авторе, название статьи, название книги
  3. если авторов много, то назовите каждое имя. Поскольку часто нам нужно не более 3 авторов, если найдены другие, мы должны использовать «et al»
  4. если какая-то информация отсутствует, то дать подсказку для полноты

ниже приведен только пример типов форматов журнальной бумаги. Мы можем обнаружить, что их трудно понять с помощью простого совпадения строк.

[example 1] Duan,C., X.Meng, C.Tu. How to make local image features more efficient and distinctive[J].IET Computer Vision,2008,2(3):178-189.

мы можем обнаружить, что есть 3 автора ("Duan, C.", "X.Meng", "C.Tu"), имена которых разделены запятой, однако запятая также используется в имени одного человека ("Duan , С. "). Так что на самом деле сложно использовать регулярные выражения, чтобы судить имя людей

[example 2] Harris,C. & M.Stephens. A combined corner and edge detector[J]. Alvey Vision Conference,1988,5(7):147-151.

& используется для разделения двух имен, однако мы можем найти, может быть, кто-то еще напишет его как Harris,C., M.Stephens

Если мы используем формат MLA ( Автоцитировать журнал в формате MLA )

[example 3] Fearon, James D., and David D. Laitin. "Ethnicity, Insurgency, and Civil War." American Political Science Review 97.01 (2003): 75. Print.

Мы можем найти, что этот не использует [J], но, так как если пойти по шаблону Last, First M., and First M. Last. "Article Title." Journal Title Series Volume. Issue (Year Published): Page(s). Print., мы можем сказать, что это журнальная статья. Мы можем «перевести» его в другой формат:

Fearon, James D., David D. Laitin. Ethnicity, Insurgency, and Civil War[J]. American Political Science Review. 2003 97(01): 75

, где 75 означает, что эта бумага имеет только одну страницу, то есть 75.

что касается формата IEEE ( IEEE Style: статьи в журналах ), мы находим vol, pp и т. Д., Которые не нужны для вышеуказанных форматов

[example 4, IEEE format]G. Liu, K. Y. Lee, and H. F. Jordan, "TDM and TWDM de Bruijn networks and shufflenets for optical communications," IEEE Trans. Comp., vol. 46, pp. 695-701, June 1997.

Если мы прочитаем

[example 4, missing pages] G. Liu, K. Y. Lee, and H. F. Jordan, "TDM and TWDM de Bruijn networks and shufflenets for optical communications," IEEE Trans. Comp., vol. 46, June 1997.

мы должны сказать пользователю проверить и дополнить, добавив страницы

...