Вы можете использовать re.findall
так:
import re
html = '<p data="5" size="4">item1</p><p size="4">item2</p><p size="4">item3</p>'
print re.findall('<p[^>]*size="[0-9]">(.*?)</p>', html)
# This prints: ['item1', 'item2', 'item3']
Редактировать : ... но, как отмечали многие комментаторы, использование регулярных выражений для анализа HTML обычно является плохой идеей.