Для некоторых типов документов доступны расширенные параметры экстракторов. Вы можете настроить экстракторы для документов форматов:
Обработчик простых текстовых файлов с большим перечнем расширений.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
Символьный сплиттер — сплиттер, который разбивает текст по одному разделителю.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Введите Разделители — список разделителей, по которому чанки отделяются друг от друга.
Разделители применяются только к документам, которые состоят из большего числа токенов, чем указано в параметре Размер чанка. Вы можете искать по языкам программирования, например, ввести «Go» и получить пресет разделителей для него.
(Опционально) Активируйте опцию Разделители являются регулярным выражением.
В параметре Добавление разделителей выберите добавлять ли разделители к чанку.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Markdown сплиттер — стандартный сплиттер для markdown-файлов, который не требует ввода разделителей.
Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Введите Уровни заголовков для разделения на чанки.
Рекомендуется всегда вручную настраивать параметры обработки данных для JSON-файлов, а также проверять их корректность, например с помощью сервиса JSONLint.
Для JSON и JSON Lines доступен только Рекурсивный JSON сплиттер — стандартный сплиттер для JSON-файлов, который не требует ввода разделителей.
Настройте сплиттер:
(Опционально) JQ-схема — используется утилитой jq для извлечения данных или текста из JSON.
Для тестирования jq-схемы рекомендуется использовать сайт https://play.jqlang.org.
(Опционально) Парсер по jq-cхеме вернет массив строк — активируйте опцию, если результат jq-обработки элемента в JSON возвращает строку.
Размер чанка. Измеряется в токенах.
Размер перекрытия чанков. Измеряется в токенах.
Минимальный размер чанка. Измеряется в токенах.
Для PDF-файлов рекомендуется не переносить логические части информации с одной страницы на другую. Начинайте каждый логический блок с новой страницы.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите Метод извлечения содержимого:
Текстовый — подходит для PDF с простой структурой.
Структурный — сохраняет структурные элементы, например схемы или таблицы.
Полный OCR — используется для сканированных PDF.
Гибридный OCR — подходит для PDF, в которых есть как текст, так и изображения.
Если был выбран Структурный, Полный OCR или Гибридный OCR метод — выберите Режим передачи документов в сплиттер:
Полный — каждый документ передается в виде одной страницы.
Постраничный — каждая страница документа передается по отдельности.
Выберите Формат вывода извлеченного содержимого:
Текст — файлы выводятся как текст.
С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.
Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.
Если был выбран Пользовательский формат вывода, введите Промпт для OCR.
Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
(Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.
Выберите Тип сплиттера — способ разбиения текста на чанки:
HTML сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
В поле HTML-тег введите тег, текст из которого будет извлечен. При указании * будет извлечен весь текст файла.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
(Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Word сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
Выберите Метод:
Текстовый — содержимое будет извлечено в виде текста.
Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.
Если был выбран Метод Структурный — выберите Режим передачи документов в сплиттер:
Полный — каждый документ передается в виде одной страницы.
По элементам — каждый структурный элемент документа передается по отдельности.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Выберите Тип сплиттера — способ разбиения текста на чанки:
CSV сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
(Опционально) В поле Столбцы с метаданными выберите столбцы CSV-файла, которые будут добавлены в метаданные документа после извлечения.
(Опционально) В поле Столбцы с контентом выберите столбцы CSV-файла, которые будут включены в содержимое документа после извлечения.
(Опционально) В поле Разделитель введите разделитель полей в CSV-файле.
(Опционально) В поле Названия столбцов вы можете задать новые названия столбцов внутри CSV-файла.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Excel сплиттер — стандартный сплиттер для таблиц.
Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите способ обработки формул:
Гибридный — в извлеченных таблицах отразятся результаты вычислений по формулам. Если результата нет, отобразится текст формулы.
Только значения — отразятся только результаты вычислений.
Только формулы — отразятся только тексты формул.
Выберите Формат вывода извлеченных таблиц:
Markdown — подойдет, если планируете использовать в LLM-моделях.
HTML — используется для сложных таблиц.
(Опционально) Активируйте опцию Первая строка таблицы является заголовком.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Выберите Тип сплиттера — способ разбиения текста на чанки:
Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите Режим передачи документов в сплиттер:
Полный — каждый документ передается в виде одной страницы.
Постраничный — каждая страница документа передается по отдельности.
Выберите Формат вывода извлеченного содержимого:
Текст — файлы выводятся как текст.
С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.
Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.
Если был выбран Пользовательский формат вывода, введите Промпт для OCR.
Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
(Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.