Мне постоянно приходится изучать что-то новое.Я пытался придумать, как можно ускорить процесс изучения новых предметов.Я подумал, что было бы неплохо, если бы я мог написать программу для анализа статьи в Википедии и удаления всего, кроме самой ценной информации.
Я начал с того, что взял статью из Википедии о PDFs и извлек еепервые 100 предложений.Я дал каждому предложению оценку, основываясь на том, насколько ценным я это считал.В итоге я создал файл в следующем формате:
<sentence>
<value>
<sentence>
<value>
etc.
Затем я проанализировал этот файл и попытался найти различные функции, которые бы соотносили каждое предложение со значением, которое я ему дал.Я только начал изучать машинное обучение, статистику и еще много чего, так что здесь я много болтаю.Это моя последняя попытка: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Я перепробовал кучу вещей, которые, похоже, не давали вообще никакой корреляции - средняя длина слова, позиция в статье и т. Д.Практически единственной вещью, которая привела к каким-либо полезным отношениям, была длина строки (точнее, подсчет количества строчных букв, которые казались лучшими).Но это кажется отстойным, потому что кажется очевидным, что более длинные предложения с большей вероятностью будут содержать полезную информацию.
В какой-то момент я подумал, что нашел некоторые интересные функции, но потом, когда попытался удалить выбросы (с помощьютолько считая внутренние квартили), они оказались хуже, чем просто возвращали 0 для каждого предложения.Это заставило меня задуматься о том, как много других вещей я могу делать неправильно ... Мне также интересно, является ли это даже хорошим способом решения этой проблемы.
Как вы думаете, я на правильном пути?Или это просто глупое поручение?Есть ли явные недостатки в связанном коде?Кто-нибудь знает, как лучше подойти к проблеме подведения итогов статьи в Википедии?Я предпочел бы иметь быстрое и грязное решение, чем что-то идеальное, на сбор которого уходит много времениЛюбые общие советы также приветствуются.