Облачная платформаEvolution

Выбрать параметры экстракторов


Для некоторых типов документов доступны расширенные параметры экстракторов. Вы можете настроить экстракторы для документов форматов:

Simple File

Обработчик простых текстовых файлов с большим перечнем расширений.

Выберите Тип сплиттера — способ разбиения текста на чанки:

  • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

  • Символьный сплиттер — сплиттер, который разбивает текст по одному разделителю.


  1. Введите Размер чанка. Измеряется в токенах.

  2. Введите Размер перекрытия чанков. Измеряется в токенах.

  3. Введите Разделители — список разделителей, по которому чанки отделяются друг от друга.

    Разделители применяются только к документам, которые состоят из большего числа токенов, чем указано в параметре Размер чанка. Вы можете искать по языкам программирования, например, ввести «Go» и получить пресет разделителей для него.

  4. (Опционально) Активируйте опцию Разделители являются регулярным выражением.

  5. В параметре Добавление разделителей выберите добавлять ли разделители к чанку.

Markdown

Выберите Тип сплиттера — способ разбиения текста на чанки:

  • Markdown сплиттер — стандартный сплиттер для markdown-файлов, который не требует ввода разделителей.

  • Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.


  1. Введите Размер чанка. Измеряется в токенах.

  2. Введите Размер перекрытия чанков. Измеряется в токенах.

  3. (Опционально) Введите Уровни заголовков для разделения на чанки.

JSON/JSONL

Примечание

Рекомендуется всегда вручную настраивать параметры обработки данных для JSON-файлов, а также проверять их корректность, например с помощью сервиса JSONLint.

Для JSON и JSON Lines доступен только Рекурсивный JSON сплиттер — стандартный сплиттер для JSON-файлов, который не требует ввода разделителей.

Настройте сплиттер:

  1. (Опционально) JQ-схема — используется утилитой jq для извлечения данных или текста из JSON.

    Для тестирования jq-схемы рекомендуется использовать сайт https://play.jqlang.org.

  2. (Опционально) Парсер по jq-cхеме вернет массив строк — активируйте опцию, если результат jq-обработки элемента в JSON возвращает строку.

  3. Размер чанка. Измеряется в токенах.

  4. Размер перекрытия чанков. Измеряется в токенах.

  5. Минимальный размер чанка. Измеряется в токенах.

PDF

Примечание

Для PDF-файлов рекомендуется не переносить логические части информации с одной страницы на другую. Начинайте каждый логический блок с новой страницы.

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.

    • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

    • Без сплиттера — выберите, если текст не нужно разбивать на чанки.

  2. Выберите Метод извлечения содержимого:

    • Текстовый — подходит для PDF с простой структурой.

    • Структурный — сохраняет структурные элементы, например схемы или таблицы.

    • Полный OCR — используется для сканированных PDF.

    • Гибридный OCR — подходит для PDF, в которых есть как текст, так и изображения.

  3. Если был выбран Структурный, Полный OCR или Гибридный OCR метод — выберите Режим передачи документов в сплиттер:

    • Полный — каждый документ передается в виде одной страницы.

    • Постраничный — каждая страница документа передается по отдельности.

  4. Выберите Формат вывода извлеченного содержимого:

    • Текст — файлы выводятся как текст.

    • С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.

    • Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.

  5. Если был выбран Пользовательский формат вывода, введите Промпт для OCR.

  6. Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.

  7. Настройте сплиттер:


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

    3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

    4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

HTML

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • HTML сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

  2. В поле HTML-тег введите тег, текст из которого будет извлечен. При указании * будет извлечен весь текст файла.


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

    3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

    4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

Word

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • Word сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

  2. Выберите Метод:

    • Текстовый — содержимое будет извлечено в виде текста.

    • Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.

  3. Если был выбран Метод Структурный — выберите Режим передачи документов в сплиттер:

    • Полный — каждый документ передается в виде одной страницы.

    • По элементам — каждый структурный элемент документа передается по отдельности.

  4. Настройте сплиттер:


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

CSV/TSV

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • CSV сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

  2. (Опционально) В поле Столбцы с метаданными выберите столбцы CSV-файла, которые будут добавлены в метаданные документа после извлечения.

  3. (Опционально) В поле Столбцы с контентом выберите столбцы CSV-файла, которые будут включены в содержимое документа после извлечения.

  4. (Опционально) В поле Разделитель введите разделитель полей в CSV-файле.

  5. (Опционально) В поле Названия столбцов вы можете задать новые названия столбцов внутри CSV-файла.

  6. Настройте сплиттер:


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

Excel

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • Excel сплиттер — стандартный сплиттер для таблиц.

    • Без сплиттера — выберите, если текст не нужно разбивать на чанки.

  2. Выберите способ обработки формул:

    • Гибридный — в извлеченных таблицах отразятся результаты вычислений по формулам. Если результата нет, отобразится текст формулы.

    • Только значения — отразятся только результаты вычислений.

    • Только формулы — отразятся только тексты формул.

  3. Выберите Формат вывода извлеченных таблиц:

    • Markdown — подойдет, если планируете использовать в LLM-моделях.

    • HTML — используется для сложных таблиц.

  4. (Опционально) Активируйте опцию Первая строка таблицы является заголовком.

  5. Настройте сплиттер:

    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

Image

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.

    • Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.

    • Без сплиттера — выберите, если текст не нужно разбивать на чанки.

  2. Выберите Режим передачи документов в сплиттер:

    • Полный — каждый документ передается в виде одной страницы.

    • Постраничный — каждая страница документа передается по отдельности.

  3. Выберите Формат вывода извлеченного содержимого:

    • Текст — файлы выводятся как текст.

    • С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.

    • Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.

  4. Если был выбран Пользовательский формат вывода, введите Промпт для OCR.

  5. Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.

  6. Настройте сплиттер:


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

    3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

    4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.