R Извлечь имена из текста - PullRequest
0 голосов
/ 29 марта 2019

Я пытаюсь извлечь список имен игроков в регби из строки.Строка содержит всю информацию из таблицы, содержащую заголовки (названия команд), а также имя игрока в каждой позиции для каждой команды.Он также имеет рейтинг игроков, но меня это не волнует.

Важно - многие рейтинги игроков отсутствуют.Я нашел решение для этого, однако не обрабатывает недостающие рейтинги (например, Рабах Слимани является первым игроком, который не записал рейтинг).

Обратите внимание, цифры от 1 до 15 указывают позиции, и всегда естьдва имени после каждой позиции (домашний игрок и игрок на выезде).

Вот пример строки:

" Team Sheets # FRA France RPI IRE Ireland RPI 1 Jefferson Poirot 72 Cian Healy 82 2 Guilhem Guirado 78 Rory Best 85 3 Rabah Slimani Tadhg Furlong 85 4 Arthur Iturria 82 Iain Henderson 84 5 Sebastien Vahaamahina 84 James Ryan 92 6 Wenceslas Lauret 82 Peter O'Mahony 93 7 Yacouba Camara 70 Josh van der Flier 64 8 Kevin Gourdon CJ Stander 91 9 Maxime Machenaud Conor Murray 87 10 Matthieu Jalibert Johnny Sexton 90 11 Virimi Vakatawa Jacob Stockdale 89 12 Henry Chavancy Bundee Aki 83 13 Rémi Lamerat Robbie Henshaw 78 14 Teddy Thomas Keith Earls 89 15 Geoffrey Palis Rob Kearney 80 Substitutes # FRA France RPI IRE Ireland RPI 16 Adrien Pelissie Sean Cronin 84 17 Dany Priso 70 Jack McGrath 70 18 Cedate Gomes Sa 71 John Ryan 86 19 Paul Gabrillagues 77 Devin Toner 90 20 Marco Tauleigne Dan Leavy 80 21 Antoine Dupont 92 Luke McGrath 22 Anthony Belleau 65 Joey Carbery 86 23 Benjamin Fall Fergus McFadden "

Примечание - отсюда: https://www.rugbypass.com/live/six-nations/france-vs-ireland-at-stade-de-france-on-03022018/2018/info/

Итак, в общем, я хочу просто список имен с названиями команд в качестве заголовков, например

France             Ireland

Jefferson Poirot   Cian Healy
Guilhem Guirado    Rory Best
...              ...

Любая помощь будет принята с благодарностью!

1 Ответ

0 голосов
/ 29 марта 2019

Я попробовал это в расширенном редакторе блокнота и попытался найти вхождения 2 последовательных числа и заменил их новой строкой.ReGex:

\d+\s+\d+

Как только вы закончите замену, у вас останется 2 имени в каждой строке, разделенных числом.Затем используйте приведенный ниже ReGex, чтобы заменить этот номер одной вкладкой

\s+\d+\s+

Надеюсь, что поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...