Entity recognition
Сервис построен на базе mBERT и обучен на наборе данных WikiNEuRal для многоязычного NER (Named-Entity Recognition). Система поддерживает 9 языков (ru, de, en, es, fr, it, nl, pl, pt)
Возможности
Сервис позволяет выделять именованные сущности из текста. Список именованных сущностей:
Person (Личность).
Organization (Организация).
Location (Местоположение).
Miscellaneous (Остальное).
В Miscellaneous попадают в основном наименование ПО, сервисов, популярных объектов общего характера.
Примеры бизнес-сценариев
Определение типа документа для его последующей маршрутизации в системы хранения и обработки.
Определение условий в документе (даты, сроки, суммы, ответственность, риски, реквизиты контрагентов и т.п.)
Текстовый поиск документов по соответствующим сущностям.
Сопоставление и выявление расхождений в текстах, оценка рисков.
Проверка комплектности документов по заданным словам.
Заполнение карточек документов.
Специфика
Любые пожелания и требования по доработке сервиса под вашу конкретную бизнес-задачу (на базе ваших данных) приветствуются.
Пример взаимодействия
После того как вы запустили модель, получили адрес и создали API токен для запросов, можно начать делать запросы на выделение именованных сущностей.
{
"instances": [
"Текст для классификации"
]
}
{
"predictions": [
{
"entity_group": "<TAG>",
"score": 0.9990847706794739,
"word": "ИМЕНОВАННАЯ СУЩНОСТЬ",
"start": 17,
"end": 35
},
]
}
import requests
BASE_URL = "https://mlspace.aicloud.sbercloud.ru/deployments/<region>/<deploy_name>/v1/models/<deploy_name>:predict"
res = requests.post(BASE_URL,
json={"instances":[
"Жителям северных территорий Хабаровского края предоставят субсидии на развитие оленеводства, сообщили в пресс-службе правительства региона"
]},
headers={
"x-workspace-id": "<your_workspace_id>",
"content-type":"application/json",
"x-api-key":"<your_api_key>"
})