Генеративная проверка орфографии и пунктуации

Модель-корректор правит ваш текст, не исправляя ничего лишнего

Размер файлов

7 GB

Версия

v2.0

Возможности

Модель генеративной проверки орфографии и пунктуации переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. Корректор был обучен на базе генеративной модели FRED-T5 в два этапа. Вначале модель обучалась на обширном датасете с “искусственными” ошибками: корпус был собран на основе русскоязычной википедии и транскриптов русскоязычных видео, затем в него автоматически внедрили опечатки, орфографические и пунктуационные ошибки. На заключительном этапе архитектура обучалась на комбинации из двух датасетов, содержащих “человеческие” ошибки и синтетически сгенерированные.

Преимущества нашего решения

Консистентный перенос стиля

На данный момент коррекция орфографических ошибок в большинстве случаев сопряжена с приведением всех слов в тексте к норме языка, что приводит к нежелательным с точки зрения пользователя исправлениям, как, например, тут:

ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ???, в новую версию торта добавили новую механику ???

Мы постарались научить модель отличать случайную опечатку или ошибку от намеренного искажения нормы: на последней стадии обучения модели подавались пары текстов, где вручную экспертами были исправлены только ненамеренные ошибки, чтобы в итоге получалось исправлять именно ошибки:

ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ОМГ, в новую версию торча добавили новую механику чекпоинтинга

*торч, чекпоинтинг - жаргонизмы, принятые в технической среде

Устойчивость к текстам из разных источников

Модель обучена на примерах, покрывающих большинство часто встречающихся источников текста и их особенностей, различные варианты форматирования и символы:

Статьи и выступления

Рассказ про библиотеку SAGE, DataFest 2023
Доклад про модели из SAGE, AI Journey 2023
Статья про методы генерации синтетических ошибок, Dialogue 2023
Статья про SAGE и наше лучшее решение, EACL 2024 Malta

Примеры работы

На входе	На выходе
Вытавка «Александ Иванов — мастир акварели. Жанр и пийзаж» проходит до 19 ноебря в Государственой Третьяековской галереи. Мусею принадлижыт значительное часть графическово наследия художника, включая свыше 700 отдельных листа и около 40 альбомов. Экспозиций включает в себя преимуществено пизажи и сцены из итальянской жизни.	Выставка «Александр Иванов — мастер акварели. Жанр и пейзаж» проходит до 19 ноября в Государственной Третьяковской галерее. Музею принадлежит значительная часть графического наследия художника, включая свыше 700 отдельных листов и около 40 альбомов. Экспозиция включает в себя преимущественно пейзажи и сцены из итальянской жизни.
Бабушка выстовила зимнии рамы. И сразу в избе стало светло весела. За окном в кустах вороби чирикают ласточки щибечут ребетишки кричат и смеюца.	Бабушка выставила зимние рамы. И сразу в избе стало светло, весело. За окном в кустах воробьи чирикают, ласточки щебечут, ребятишки кричат и смеются.
в течении этого процесса мне часто приходилось иметь дело с гореруководителями	В течение этого процесса мне часто приходилось иметь дело с гореруководителями.

Метрики

Качество

Ниже представлены автоматические метрики для определения корректности работы спелл-чекеров. Пояснения орф., пункт., регистр указывают на метрики, отслеживающие качество исправления соответственно орфографических, пунктуационных ошибок и ошибок, связанных с неверным употреблением регистра. Мы приводим сравнение нашего решения как с открытыми автоматическими спелл-чекерами, так и с семейством моделей ChatGPT на всех четырёх имеющихся датасетах:

RUSpellRU: тексты, собранные из ЖЖ (ЖивойЖурнал), с вручную исправленными опечатками и ошибками;
MultidomainGold: примеры из 7 текстовых источников, включая открытый интернет, новости, социальные сети, отзывы, субтитры, стратегические документы и литературные произведения;
MedSpellChecker: тексты с ошибками из медицинских анамнезов;
GitHubTypoCorpusRu: орфографические ошибки и опечатки в коммитах на GitHub;

RUSpellRU

Модель	F1 (орф.)	F1 (пункт.)	F1 (регистр)
SAGE AI Service	88.2	88.4	95.6
ChatGPT gpt-3.5-turbo-0125	42.7	73.7	79.0
ChatGPT gpt-4-0125-preview	64.0	83.2	90.9
Yandex.Speller	69.5	x	x
JamSpell	36.9	x	x
HunSpell	33.0	x	x

MultidomainGold

Модель	F1 (орф.)	F1 (пункт.)	F1 (регистр)
SAGE AI Service	79.6	68.8	80.5
ChatGPT gpt-3.5-turbo-0125	27.1	36.2	49.1
ChatGPT gpt-4-0125-preview	37.0	56.0	60.0
Yandex.Speller	52.2	x	x
JamSpell	28.0	x	x
HunSpell	23.0	x	x

MedSpellChecker

Модель	F1 (орф.)	F1 (пункт.)	F1 (регистр)
SAGE AI Service	72.4	72.0	76.6
ChatGPT gpt-3.5-turbo-0125	22.3	59.8	32.3
ChatGPT gpt-4-0125-preview	49.6	71.9	67.1
Yandex.Speller	60.0	x	x
JamSpell	26.9	x	x
HunSpell	16.4	x	x

GitHubTypoCorpusRu

Модель	Precision	Recall	F1
SAGE AI Service	62.7	41.4	38.1
ChatGPT gpt-3.5-turbo-0125	29.4	28.7	25.3
ChatGPT gpt-4-0125-preview	35.7	38.2	30.2
Yandex.Speller	48.3	x	x
JamSpell	37.3	x	x
HunSpell	29.6	x	x

*Yandex.Speller, JamSpell и HunSpell не исправляют пунктуационные ошибки и ошибки регистра, поэтому в соответствующих колонках стоит x.

Текущие ограничения

Можно загружать текст длиной до 1000 символов;
Текущее решение поддерживает только русский язык.

Будущие возможности

Сервис развивается, запланированы следующие улучшения: Поддержка нескольких языков. Постепенно будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России.

Инструкция по использованию

Входные параметры:

# обязательный параметр:
`text` - оригинальный текст для исправления. Непустая строка не длиннее 1000 символов.

Запрос выглядит следующим образом:

{"instances": [{"text": "text"}] }

На выходе:

{'comment': ['OK'],
'origin': 'тест с ошыбкой',
'predictions': 'тест с ошибкой',
'success': True,
'version': '1.0.0'}

Ресурсы

Лицензирование

Модель FRED-T5-1.7B, на основе которой сделан сервис, и её исходный код поставляются на основе лицензии MIT. Сервис генеративной проверки орфографии является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / Cloud.ru.

Обратная связь

По вопросам, связанным с работой и применением модели можно обращаться к менеджеру продукта: Павел Лебедев PIgLebedev@sberbank.ru.