Я очень хорошо знаком с регулярным выражением, прежде чем вы все начнете отвечать с вариациями: / d +
Я хочу знать, есть ли альтернативы регулярному выражению для разбора чисел из большого текстового файла.
Я анализирую тонны огромных файлов, и мне нужно провести анализ группы / местоположения по позициям ключевых слов.Сейчас я нахожусь в точке, где мне нужно начинать находить группы чисел, которые также тесно связаны с интересующим меня содержанием.Я хочу избежать регулярных выражений, если это вообще возможно, потому что это должен быть быстрый процесс.
Можно взять куски файла для проверки на интересующие номера.Это, однако, потребует больше работы и добавить жестко закодированные ограничения для поиска(Я бы хотел этого избежать)
Я открыт для любых предложений.
ОБНОВЛЕНИЕ
Извините за отсутствие выборки данных.По причинам HIPAA я бы даже не подумал о том, чтобы зашифровать текст и опубликовать его.
Отличной заменой будет источник HTML любой страницы вопросов stackoverflow.com.Представьте, что мне нужно получить репутацию (оценку) всех людей, которые разместили ответ на вопрос.Это также означает, что запятая (,) также необходима.Я не могу удалить HTML, чтобы упростить контент, потому что я использую некоторый анализ плотности, чтобы отсеять несвязанный контент.Удаление HTML могло бы смешать содержимое слишком близко друг к другу.