Проблема с вашим регулярным выражением в том, что он слишком разрешает.
Если вы посмотрите на эту визуализацию здесь (я удалил все жестко закодированные названия городов (because), потому что они не имеют значения):

Вы можете увидеть множество «любых символов», повторенных х раз, или просто «не 市» и «не 町», повторенных х раз.Это то, что соответствует 都 道 府 県 в вашей строке.Следовательно, это те места, где вы должны запретить 101 道 府 県:

Соответствующее регулярное выражение будет:
(?:余市|高市|[^都道府県市]{2,3}?)郡(?:玉村|大町|[^都道府県]{1,5}?)[町村]|(?:[^都道府県]{1,4}市)?[^都道府県町]{1,4}?区|[^都道府県]{1,7}?[市町村]
Помнитедобавить жестко закодированные города, когда вы добавите это в свой код!