Раньше я думал, что SQL не может обрабатывать неструктурированные данные (например, текст), если мы не напишем некоторые пользовательские функции в C. Однако функция полнотекстового поиска InnoDB, похоже, уже проделала большую часть такой работы.
Согласно https://dev.mysql.com/doc/refman/5.6/en/innodb-fulltext-index.html, индекс сохраняется в таблицах InnoDB с именем FTS_00000..._00000..._INDEX_?
.
. Я попытался запустить SELECT * FROM FTS_00000 ..._ 00000 ..._ INDEX_1 в надежде увидеть токены в каждом документе (возможно, с уже удаленными стоп-словами). Тем не менее, я получил сообщение об ошибке
ERROR 1146 (42S02): Table 'tf.FTS_0000000000000028_0000000000000030_INDEX_1' doesn't exist
, даже если select * from information_schema.INNODB_SYS_TABLES;
показывает, что таблица существует.
Кто-нибудь знает, как я мог получить токены каждого документа, который я вставил в полную версию? текстовый индекс? Было бы здорово, если бы я мог получить информацию в следующей схеме данных:
token_id document_id count
"apple" 103343 3
"orange" 9593 1
...