Первоначально я задавал этот вопрос: Регулярное выражение в gVim для удаления дублирующихся доменов из списка
Тем не менее, я понимаю, что, скорее всего, найду работающее решение, если я "расширю свои возможности" с точки зрения того, какое решение я готов принять.
Итак, я перефразирую свой вопрос и, возможно, я найду лучшее решение ... вот так:
У меня большой список URL-адресов в файле .txt (я использую 32-разрядную версию Windows Vista), и мне нужно удалить дубликаты ДОМЕНОВ (и весь соответствующий URL-адрес для каждого дубликата), оставив после первого появления каждого домена , В этом конкретном файле примерно 6 000 000 URL-адресов в следующем формате (очевидно, что в URL-адресах нет пробела, я просто должен был это сделать, потому что у меня недостаточно сообщений для публикации такого количества «живых» URL-адресов). ):
http://www.exampleurl.com/something.php
http://exampleurl.com/somethingelse.htm
http://exampleurl2.com/another-url
http://www.exampleurl2.com/a-url.htm
http://exampleurl2.com/yet-another-url.html
http://exampleurl.com/
http://www.exampleurl3.com/here_is_a_url
http://www.exampleurl5.com/something
Каким бы ни было решение, выходной файл, использующий в качестве входных данных выше, должен быть таким:
http://www.exampleurl.com/something.php
http://exampleurl2.com/another-url
http://www.exampleurl3.com/here_is_a_url
http://www.exampleurl5.com/something
Вы заметили, что сейчас нет повторяющихся доменов, и он оставил позади первое вхождение, с которым столкнулся.
Если кто-нибудь может мне помочь, будь то использование регулярных выражений или какая-то программа, о которой я не знаю, это было бы здорово.
Я скажу это, хотя, у меня НЕТ опыта использования чего-либо, кроме ОС Windows, поэтому решение, влекущее за собой что-то, кроме программы Windows, потребовало бы, так сказать, небольшого «детского шага» (если кто-то достаточно добр для этого).