Вы, конечно, можете сделать это на Java. Посмотрите на класс HttpURLConnection. По сути, вы даете ему URL, вызываете функцию connect и получаете поток ввода с содержимым страницы, т. Е. HTML-текстом. Затем вы можете обработать это и проанализировать любую информацию, которую хотите.
Вы столкнулись с двумя проблемами в проекте, который вы описываете. Первая, и, возможно, действительно менее сложная задача, - это выяснить механизм подключения к веб-странице и получения текста в вашей программе. Вторая и, вероятно, более сложная задача - выяснить, как именно извлечь нужную информацию из этого текста. Я не совсем понимаю детали ваших требований, но вам придется разобраться с кучей текста, чтобы найти то, что вы ищете. На самом деле, не глядя на сайт NY Times, я уверен, что на нем есть все виды украшений, такие как красивые картинки, логотип компании, заголовки и так далее, а затем будут меню, реклама и все виды вещей. , Я искренне сомневаюсь, что NY Times или почти любой другой коммерческий веб-сайт вернет страницу поиска, на которой нет ничего, кроме ссылки на интересующую вас статью. Каким-то образом вашей программе придется выяснить, что первая ссылка на страница «подписаться на линии», вторая - для рекламы, третья - для обслуживания клиентов, четвертая и пятая - для дополнительной рекламы, шестая - для домашней страницы и т. д., и т. д. интересует. Как вы найдете интересную ссылку? Возможно, существуют заголовки или форматирование, которые делают его узнаваемым для человека, но вы используете большую интуицию, чтобы отсеять беспорядок, который может быть трудно воспроизвести в программе.
Удачи!