Облачная платформаEvolution

Выбрать параметры экстракторов

Эта статья полезна?

Для некоторых типов документов доступны расширенные параметры экстракторов. Вы можете настроить экстракторы для документов форматов:

Simple File

Обработчик простых текстовых файлов с большим перечнем расширений.

Выберите Тип сплиттера — способ разбиения текста на чанки:

  • RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если

    слишком большой, по второму и так далее разделителям.

  • CharacterTextSplitter — сплиттер, который разбивает текст по одному разделителю.


  1. Введите Размер чанка. Измеряется в токенах.

  2. Введите Размер перекрытия чанков. Измеряется в токенах.

  3. Введите Разделители — список разделителей, по которому чанки отделяются друг от друга.

    Разделители применяются только к документам, которые состоят из большего числа токенов, чем указано в параметре Размер чанка. Вы можете искать по языкам программирования, например, ввести «Go» и получить пресет разделителей для него.

  4. (Опционально) Активируйте опцию Разделители являются регулярным выражением.

  5. В параметре Добавление разделителей выберите добавлять ли разделители к чанку.

Markdown

Выберите Тип сплиттера — способ разбиения текста на чанки:

  • MarkdownSplitter — стандартный сплиттер для markdown-файлов, который не требует ввода разделителей.

  • MarkdownSmartSplitter — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.


  1. Введите Размер чанка. Измеряется в токенах.

  2. Введите Размер перекрытия чанков. Измеряется в токенах.

  3. (Опционально) Введите Уровни заголовков для разделения на чанки.

JSON/JSONL

Примечание

Рекомендуется всегда вручную настраивать параметры обработки данных для JSON-файлов, а также проверять их корректность, например с помощью сервиса JSONLint.

Для JSON и JSON Lines доступен только RecursiveJsonSplitter — стандартный сплиттер для JSON-файлов, который не требует ввода разделителей.

Настройте сплиттер:

  1. (Опционально) JQ-схема — используется утилитой jq для извлечения данных или текста из JSON.

    Для тестирования jq-схемы рекомендуется использовать сайт https://play.jqlang.org.

  2. (Опционально) Парсер по jq-cхеме вернет массив строк — активируйте опцию, если результат jq-обработки элемента в JSON возвращает строку.

  3. Размер чанка. Измеряется в токенах.

  4. Размер перекрытия чанков. Измеряется в токенах.

  5. Минимальный размер чанка. Измеряется в токенах.

PDF

Примечание

Для PDF-файлов рекомендуется не переносить логические части информации с одной страницы на другую, а начинать каждый новый логический блок с новой страницы.

Для PDF-файлов доступен только MarkdownSmartSplitter. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.

  1. Настройте сплиттер:

    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

    3. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

    4. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

  2. Выберите Метод:

    • Текстовый — содержимое будет извлечено в виде текста.

    • Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.

  3. Если был выбран метод Структурный — выберите Режим передачи документов в сплиттер:

    • Полный — каждый документ передается в виде одной страницы.

    • Постраничный — каждая страница документа передается по отдельности.

HTML

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • HTMLSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если

      слишком большой, по второму и так далее разделителям.

  2. В поле HTML-тег введите тег, текст из которого будет извлечен. При указании * будет извлечен весь текст файла.


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.

    3. (Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.

    4. (Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.

Word

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • WordSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если

      слишком большой, по второму и так далее разделителям.

  2. Выберите Метод:

    • Текстовый — содержимое будет извлечено в виде текста.

    • Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.

  3. Если был выбран Метод Структурный — выберите Режим передачи документов в сплиттер:

    • Полный — каждый документ передается в виде одной страницы.

    • По элементам — каждый структурный элемент документа передается по отдельности.


  1. Введите Размер чанка. Измеряется в токенах.

  2. Введите Размер перекрытия чанков. Измеряется в токенах.

CSV/TSV

  1. Выберите Тип сплиттера — способ разбиения текста на чанки:

    • CSVSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.

    • RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если

      слишком большой, по второму и так далее разделителям.

  2. (Опционально) В поле Столбцы с метаданными выберите столбцы CSV-файла, которые будут добавлены в метаданные документа после извлечения.

  3. (Опционально) В поле Столбцы с контентом выберите столбцы CSV-файла, которые будут включены в содержимое документа после извлечения.

  4. (Опционально) В поле Разделитель введите разделитель полей в CSV-файле.

  5. (Опционально) В поле Названия столбцов вы можете задать новые названия столбцов внутри CSV-файла.

  6. Настройте сплиттер:


    1. Введите Размер чанка. Измеряется в токенах.

    2. Введите Размер перекрытия чанков. Измеряется в токенах.