Можете ли вы предположить, что ваш документ правильно сформирован и не содержит синтаксических ошибок?Если это так, вы просто интересуетесь каждым другим токеном после использования String.split ().
Если вам нужно что-то более надежное, вам может понадобиться класс сканера (или StringBuffer и цикл for ;-)), чтобы выбрать действительные токены с учетом дополнительныхкритерий выше «Я где-то видел кавычку».
Например, по некоторым причинам вам может потребоваться более надежное решение, чем слепое разбиение строки на кавычки: возможно, это только действительный токен, если кавычка начинает егоприходит сразу после знака равенства.Или, может быть, вам нужно нужно обрабатывать значения, которые не указаны в кавычках, а также в кавычках?Требуется ли обрабатывать \"
в качестве экранированной кавычки, или это считается концом строки.Может ли он иметь одинарные или двойные кавычки (например, html), или он всегда будет правильно отформатирован двойными кавычками?
Один надежный способ - думать как компилятор и использовать Lexer на основе Java (например, JFlex), но это может быть излишним для того, что вам нужно.
Если вы предпочитаете низкоуровневый подход, вы можете перебирать свой входной поток символ за символом, используя цикл while, и когдавы видите ="
, начинающий копировать символы в StringBuffer, пока не найдете другой неэкранированный "
, либо объединяющий различные разыскиваемые значения или добавляющий их в какой-либо список (в зависимости от того, что вы планируете делать сваши данные).Затем продолжайте чтение, пока не встретите свой стартовый токен (например: ="
) снова, и повторите.