Я довольно хорошо разбираюсь в Python, поэтому псевдокода будет достаточно, когда детали тривиальны. Пожалуйста, начните с этой задачи - как мне обходить сеть по почтовым адресам церквей в моем штате? Как только у меня будет один лайнер, такой как «123 Old West Road # 3 Old Lyme City MD 01234», я, вероятно, смогу разобрать его на город, штат, улицу, номер, достаточно проб и ошибок. Моя проблема в том, что если я использую белые страницы в Интернете, то как мне справиться со всеми нежелательными файлами HTML, таблицами HTML, рекламой и т. Д.? Я не думаю, что мне нужен их номер телефона, но это не повредит - я всегда могу выкинуть его, как только разберусь. Даже если ваше решение наполовину ручное (например, сохранить в pdf, затем открыть acrobat, сохранить как текст) - я, возможно, по-прежнему буду доволен. Спасибо! Черт возьми, я даже приму фрагменты Perl - я могу перевести их сам.