Облачная платформаEvolution

Выбрать параметры экстракторов

Эта статья полезна?

Для некоторых типов документов доступны расширенные параметры экстракторов. Вы можете настроить экстракторы для документов форматов:

Markdown

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Markdown сплиттер — стандартный сплиттер для markdown-файлов, который не требует ввода разделителей.
- Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. (Опционально) Введите Уровни заголовков для разделения на чанки.
4. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

HTML

В поле HTML-тег введите тег, текст из которого будет извлечен. При указании * будет извлечен весь текст файла.
Выберите Тип сплиттера — способ разбиения текста на чанки:
- HTML сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

Simple File

Обработчик простых текстовых файлов с большим перечнем расширений.

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Символьный сплиттер — сплиттер, который разбивает текст по одному разделителю.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. Введите Разделители — список разделителей, по которому чанки отделяются друг от друга.
  
  Разделители применяются только к документам, которые состоят из большего числа токенов, чем указано в параметре Размер чанка. Вы можете искать по языкам программирования, например, ввести «Go» и получить пресет разделителей для него.
4. (Опционально) Активируйте опцию Разделители являются регулярным выражением.
5. В поле Добавление разделителей выберите один из вариантов:
  Добавить к началу чанка — разделители сохранятся в начале каждого чанка;
  
  Добавить в конец чанка — разделители сохранятся в конце каждого чанка;
  
  Не добавлять к чанку — разделители не сохранятся.

PDF

Примечание

Для PDF-файлов рекомендуется не переносить логические части информации с одной страницы на другую. Начинайте каждый логический блок с новой страницы.

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите Метод извлечения содержимого:
- Текстовый — подходит для PDF с простой структурой.
- Структурный — сохраняет структурные элементы, например схемы или таблицы.
- Полный OCR — используется для сканированных PDF.
- Гибридный OCR — подходит для PDF, в которых есть как текст, так и изображения.
Если был выбран Структурный, Полный OCR или Гибридный OCR метод — выберите Режим передачи документов в сплиттер:
- Полный — каждый документ передается в виде одной страницы.
- Постраничный — каждая страница документа передается по отдельности.
Выберите Формат вывода извлеченного содержимого:
- Текст — файлы выводятся как текст.
- С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.
- Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.
Если был выбран Пользовательский формат вывода, введите Промпт для OCR.
Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.
Настройте сплиттер:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

JSON/JSONL

Примечание

Рекомендуется всегда вручную настраивать параметры обработки данных для JSON-файлов, а также проверять их корректность, например с помощью сервиса JSONLint.

Настройте парсер:
1. Заполните поле JQ-схема. Она используется утилитой jq для извлечения данных или текста из JSON.
  
  Для тестирования jq-схемы рекомендуется использовать сайт https://play.jqlang.org.
2. (Опционально) Активируйте опцию Парсер вернет строковое представление, если результат jq-обработки элемента в JSON возвращает строку.
  
  Подробнее о jq-схеме и ее влиянии на опцию.
3. (Опционально) Введите Content key — ключ для извлечения содержимого.
  
  Используется, если jq-схема возвращает словарь.
4. (Опционально) Активируйте опцию Content key доступен для парсинга, если необходимо извлечь ключ словаря.
5. (Опционально) Заполните поле JQ-схема для метаданных.
Выберите Тип сплиттера — способ разбиения текста на чанки:
- Рекурсивный JSON сплиттер — стандартный сплиттер для JSON-файлов, который не требует ввода разделителей. Доступен при неактивной опции Парсер вернет строковое представление.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее. Доступен при активной опции Парсер вернет строковое представление.
- Символьный сплиттер — сплиттер, который разбивает текст по одному разделителю. Доступен при активной опции Парсер вернет строковое представление.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. Введите Минимальный размер чанка. Измеряется в токенах.

Word

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Word сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите Метод:
- Текстовый — содержимое будет извлечено в виде текста.
- Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.
Если был выбран Метод Структурный — выберите Режим передачи документов в сплиттер:
- Полный — каждый документ передается в виде одной страницы.
- По элементам — каждый структурный элемент документа передается по отдельности.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.

CSV/TSV

Выберите Тип сплиттера — способ разбиения текста на чанки:
- CSV сплиттер — сплиттер, который собирает вместе малые элементы и делит на части большие.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
(Опционально) В поле Столбцы с метаданными выберите столбцы CSV-файла, которые будут добавлены в метаданные документа после извлечения.
(Опционально) В поле Столбцы с контентом выберите столбцы CSV-файла, которые будут включены в содержимое документа после извлечения.
(Опционально) В поле Разделитель введите разделитель полей в CSV-файле.
(Опционально) В поле Названия столбцов вы можете задать новые названия столбцов внутри CSV-файла.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.

Excel

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Excel сплиттер — стандартный сплиттер для таблиц.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите способ обработки формул:
- Гибридный — в извлеченных таблицах отразятся результаты вычислений по формулам. Если результата нет, отобразится текст формулы.
- Только значения — отразятся только результаты вычислений.
- Только формулы — отразятся только тексты формул.
Выберите Формат вывода извлеченных таблиц:
- Markdown — подойдет, если планируете использовать в LLM-моделях.
- HTML — используется для сложных таблиц.
(Опционально) Активируйте опцию Первая строка таблицы является заголовком.
Если вы выбрали сплиттер, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.

Image

Выберите Тип сплиттера — способ разбиения текста на чанки:
- Markdown Smart сплиттер — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
- Рекурсивный символьный сплиттер — сплиттер, который разбивает текст последовательно: сначала по первому разделителю, затем, если чанк слишком большой, по второму и так далее.
- Без сплиттера — выберите, если текст не нужно разбивать на чанки.
Выберите Режим передачи документов в сплиттер:
- Полный — каждый документ передается в виде одной страницы.
- Постраничный — каждая страница документа передается по отдельности.
Выберите Формат вывода извлеченного содержимого:
- Текст — файлы выводятся как текст.
- С форматированием — к содержимому применяется markdown-разметка. Это позволяет сохранить структурные элементы, например схемы или таблицы.
- Пользовательский — если вы хотите самостоятельно настроить вывод OCR-модели.
Если был выбран Пользовательский формат вывода, введите Промпт для OCR.
Выберите Максимальный размер ответа OCR. От значения зависит объем текста, который возвращает OCR-модель за один вызов. Чем больше значение, тем ниже риск обрезки текста в больших файлах.
Если вы выбрали один из сплиттеров, настройте его:
1. Введите Размер чанка. Измеряется в токенах.
2. Введите Размер перекрытия чанков. Измеряется в токенах.
3. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
4. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

Предыдущая статья

Создать базу знаний

Следующая статья

Создать версию базы знаний

Эта статья полезна?

Поддержка Юридические документы Политика конфиденциальности