На многих сайтах вакансий не работает поиск, который не позволяет сузить количество вакансий по уровню опыта.Даже когда они это делают, это обычно неправильно.Это требует, чтобы вы просмотрели сотни публикаций, на которые вы не можете подать заявку, прежде чем найдете нужную, довольно утомительную.Поскольку я предпочел бы сосредоточиться на написании сопроводительных писем и т. Д., Я хочу написать программу, которая просматривает большое количество публикаций и сохраняет URL-адреса только тех работ, которые не требуют многолетнего опыта.
Мне не нужна помощь в написании скребка, чтобы получить html тела, возможно, соответствующих должностей.Проблема заключается в точном определении уровня опыта, необходимого для работы.Это не должно быть слишком сложным, так как вакансии обычно очень четко говорят об этом («должен иметь 5-летний опыт работы в…»), но могут быть некоторые проблемы с чрезмерно простыми решениями.
В моем случае,Я ищу позиции начального уровня.Часто они не говорят «начальный уровень», но включение слов, вероятно, означает, что работа должна быть сохранена.
Далее, я могу смело исключить работу, которая говорит, что она требует «5 лет» опыта работы вкак бы то ни было, поэтому регулярное выражение типа / \ d \ syears / кажется разумным для исключения рабочих мест.Но потом я понял, что некоторые работы говорят, что им понадобится 0-2 года опыта, что соответствует правилу исключения, но, безусловно, это работа, на которую я хочу взглянуть.Хм, я могу справиться с этим с помощью другого регулярного выражения.Но некоторые говорят: «менее 2 лет» или «менее 2 лет».С этим тоже можно справиться, но это заставляет меня задаться вопросом, о каких других шаблонах я не думаю, и, возможно, исключаю много рабочих мест.Вот что привело меня сюда, чтобы найти лучший способ сделать это, чем регулярные выражения, если таковой имеется.
Я хотел бы минимизировать ложноотрицательный показатель и сохранить все задания, которые, как кажется, могут не требоватьмноголетний опыт.Представляется ли разумным исключение всего, что соответствует / [3-9] \ syears | 1 \ d \ syears /?Или есть лучший способ?Тренироваться байесовский фильтр, может быть?
Редактировать: Есть похожая, но более сложная проблема, которую, вероятно, было бы более полезно решить.Есть много рабочих мест, которые просто требуют «инженерного образования», так как вам просто нужно понять несколько технических вещей.Но поиск «инжиниринга» дает вам тысячи рабочих мест, в основном не относящихся к делу.
Как мне сузить это до тех рабочих мест, которые требуют какой-либо инженерной степени, а не определенной степени, не глядя на каждую из них?*