Индексация — это статус и процесс обработки данных при создании новой версии базы знаний. Она состоит из шагов:
Документы загружаются из источника на S3.
Содержимое обрабатывается экстракторами и разделяется на чанки.
Чанки преобразуются в векторы.
Векторы загружаются в векторную базу данных.
При выпуске версии генерируется отдельный набор токенов, векторов и метаданных, которые позволяют быстро находить релевантные фрагменты. Индекс фиксирует структуру данных в том виде, в котором они были на момент публикации.
В Managed RAG пользователям доступна переиндексация как базы знаний, так и конкретной версии. При переиндексации создается новая версия базы знаний, отличаются исходные данные:
при переиндексации базы знаний — версия создается на основе последней актуальной версии;
при переиндексации конкретной версии — версия создается на основе этой версии.
Если версия находится в статусе «Индексация» более недели, обратитесь в техническую поддержку.