вы просто ищете подстроки? если это так, пара регулярных выражений, вероятно, приведет вас туда, куда вам нужно. но такого рода проблемы, как правило, быстро обостряются, скорее всего, на следующей неделе. если последнее имеет место, и вам нужно будет делать сравнения, вам, вероятно, нужно начать изучать алгоритмы динамического выравнивания, минимальное расстояние редактирования, выравнивание по Витерби, ммс и т.п.
также, если вы имеете дело с большими входными файлами, вы могли бы предварительно скомпилировать свои регулярные выражения для хорошего увеличения скорости,
регулярные выражения для perl