Для некоторых типов документов доступны расширенные параметры экстракторов. Вы можете настроить экстракторы для документов форматов:
Обработчик простых текстовых файлов с большим перечнем расширений.
Выберите Тип сплиттера — способ разбиения текста на чанки:
RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если
слишком большой, по второму и так далее разделителям.CharacterTextSplitter — сплиттер, который разбивает текст по одному разделителю.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Введите Разделители — список разделителей, по которому чанки отделяются друг от друга.
Разделители применяются только к документам, которые состоят из большего числа токенов, чем указано в параметре Размер чанка. Вы можете искать по языкам программирования, например, ввести «Go» и получить пресет разделителей для него.
(Опционально) Активируйте опцию Разделители являются регулярным выражением.
В параметре Добавление разделителей выберите добавлять ли разделители к чанку.
Выберите Тип сплиттера — способ разбиения текста на чанки:
MarkdownSplitter — стандартный сплиттер для markdown-файлов, который не требует ввода разделителей.
MarkdownSmartSplitter — улучшенный сплиттер для markdown-файлов. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Введите Уровни заголовков для разделения на чанки.
Рекомендуется всегда вручную настраивать параметры обработки данных для JSON-файлов, а также проверять их корректность, например с помощью сервиса JSONLint.
Для JSON и JSON Lines доступен только RecursiveJsonSplitter — стандартный сплиттер для JSON-файлов, который не требует ввода разделителей.
Настройте сплиттер:
(Опционально) JQ-схема — используется утилитой jq для извлечения данных или текста из JSON.
Для тестирования jq-схемы рекомендуется использовать сайт https://play.jqlang.org.
(Опционально) Парсер по jq-cхеме вернет массив строк — активируйте опцию, если результат jq-обработки элемента в JSON возвращает строку.
Размер чанка. Измеряется в токенах.
Размер перекрытия чанков. Измеряется в токенах.
Минимальный размер чанка. Измеряется в токенах.
Для PDF-файлов рекомендуется не переносить логические части информации с одной страницы на другую, а начинать каждый новый логический блок с новой страницы.
Для PDF-файлов доступен только MarkdownSmartSplitter. Подходит для файлов с большим количеством структурных элементов, например таблиц и списков.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.
(Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
Выберите Метод:
Текстовый — содержимое будет извлечено в виде текста.
Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.
Если был выбран метод Структурный — выберите Режим передачи документов в сплиттер:
Полный — каждый документ передается в виде одной страницы.
Постраничный — каждая страница документа передается по отдельности.
Выберите Тип сплиттера — способ разбиения текста на чанки:
HTMLSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.
RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если
слишком большой, по второму и так далее разделителям.В поле HTML-тег введите тег, текст из которого будет извлечен. При указании * будет извлечен весь текст файла.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
(Опционально) Введите Уровни заголовков для разделения на чанки — уровни заголовков для разделения на чанки.
(Опционально) Чтобы разрешить превышение лимита чанка, активируйте опцию Разрешить превышение размера.
Выберите Тип сплиттера — способ разбиения текста на чанки:
WordSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.
RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если
слишком большой, по второму и так далее разделителям.Выберите Метод:
Текстовый — содержимое будет извлечено в виде текста.
Структурный — содержимое будет извлечено с сохранением структурных элементов, например схем или таблиц.
Если был выбран Метод Структурный — выберите Режим передачи документов в сплиттер:
Полный — каждый документ передается в виде одной страницы.
По элементам — каждый структурный элемент документа передается по отдельности.
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.
Выберите Тип сплиттера — способ разбиения текста на чанки:
CSVSplitter — сплиттер, который собирает вместе малые элементы и делит на части большие.
RecursiveCharacterTextSplitter — сплиттер, который разбивает текст последовательно сначала по первому разделителю, затем, если
слишком большой, по второму и так далее разделителям.(Опционально) В поле Столбцы с метаданными выберите столбцы CSV-файла, которые будут добавлены в метаданные документа после извлечения.
(Опционально) В поле Столбцы с контентом выберите столбцы CSV-файла, которые будут включены в содержимое документа после извлечения.
(Опционально) В поле Разделитель введите разделитель полей в CSV-файле.
(Опционально) В поле Названия столбцов вы можете задать новые названия столбцов внутри CSV-файла.
Настройте сплиттер:
Введите Размер чанка. Измеряется в токенах.
Введите Размер перекрытия чанков. Измеряется в токенах.