Топ-100
Поиск
Генеративная проверка орфографии и пунктуации-image

Генеративная проверка орфографии и пунктуации

Модель-корректор правит ваш текст, не исправляя ничего лишнего

Размер файлов

7 GB

Версия

v2.0

Возможности

Модель генеративной проверки орфографии и пунктуации переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. Корректор был обучен на базе генеративной модели FRED-T5 в два этапа. Вначале модель обучалась на обширном датасете с “искусственными” ошибками: корпус был собран на основе русскоязычной википедии и транскриптов русскоязычных видео, затем в него автоматически внедрили опечатки, орфографические и пунктуационные ошибки. На заключительном этапе архитектура обучалась на комбинации из двух датасетов, содержащих “человеческие” ошибки и синтетически сгенерированные.

Преимущества нашего решения

Консистентный перенос стиля

На данный момент коррекция орфографических ошибок в большинстве случаев сопряжена с приведением всех слов в тексте к норме языка, что приводит к нежелательным с точки зрения пользователя исправлениям, как, например, тут:

ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ???, в новую версию торта добавили новую механику ???

Мы постарались научить модель отличать случайную опечатку или ошибку от намеренного искажения нормы: на последней стадии обучения модели подавались пары текстов, где вручную экспертами были исправлены только ненамеренные ошибки, чтобы в итоге получалось исправлять именно ошибки:

ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ОМГ, в новую версию торча добавили новую механику чекпоинтинга

*торч, чекпоинтинг - жаргонизмы, принятые в технической среде

Устойчивость к текстам из разных источников

Модель обучена на примерах, покрывающих большинство часто встречающихся источников текста и их особенностей, различные варианты форматирования и символы:

Статьи и выступления

Примеры работы

На входеНа выходе
Вытавка «Александ Иванов — мастир акварели. Жанр и пийзаж» проходит до 19 ноебря в Государственой Третьяековской галереи. Мусею принадлижыт значительное часть графическово наследия художника, включая свыше 700 отдельных листа и около 40 альбомов. Экспозиций включает в себя преимуществено пизажи и сцены из итальянской жизни.Выставка «Александр Иванов — мастер акварели. Жанр и пейзаж» проходит до 19 ноября в Государственной Третьяковской галерее. Музею принадлежит значительная часть графического наследия художника, включая свыше 700 отдельных листов и около 40 альбомов. Экспозиция включает в себя преимущественно пейзажи и сцены из итальянской жизни.
Бабушка выстовила зимнии рамы. И сразу в избе стало светло весела. За окном в кустах вороби чирикают ласточки щибечут ребетишки кричат и смеюца.Бабушка выставила зимние рамы. И сразу в избе стало светло, весело. За окном в кустах воробьи чирикают, ласточки щебечут, ребятишки кричат и смеются.
в течении этого процесса мне часто приходилось иметь дело с гореруководителямиВ течение этого процесса мне часто приходилось иметь дело с гореруководителями.

Метрики

Качество

Ниже представлены автоматические метрики для определения корректности работы спелл-чекеров. Пояснения орф., пункт., регистр указывают на метрики, отслеживающие качество исправления соответственно орфографических, пунктуационных ошибок и ошибок, связанных с неверным употреблением регистра. Мы приводим сравнение нашего решения как с открытыми автоматическими спелл-чекерами, так и с семейством моделей ChatGPT на всех четырёх имеющихся датасетах:

  • RUSpellRU: тексты, собранные из ЖЖ (ЖивойЖурнал), с вручную исправленными опечатками и ошибками;
  • MultidomainGold: примеры из 7 текстовых источников, включая открытый интернет, новости, социальные сети, отзывы, субтитры, стратегические документы и литературные произведения;
  • MedSpellChecker: тексты с ошибками из медицинских анамнезов;
  • GitHubTypoCorpusRu: орфографические ошибки и опечатки в коммитах на GitHub;

RUSpellRU

МодельF1 (орф.)F1 (пункт.)F1 (регистр)
SAGE AI Service88.288.495.6
ChatGPT gpt-3.5-turbo-012542.773.779.0
ChatGPT gpt-4-0125-preview64.083.290.9
Yandex.Speller69.5xx
JamSpell36.9xx
HunSpell33.0xx

MultidomainGold

МодельF1 (орф.)F1 (пункт.)F1 (регистр)
SAGE AI Service79.668.880.5
ChatGPT gpt-3.5-turbo-012527.136.249.1
ChatGPT gpt-4-0125-preview37.056.060.0
Yandex.Speller52.2xx
JamSpell28.0xx
HunSpell23.0xx

MedSpellChecker

МодельF1 (орф.)F1 (пункт.)F1 (регистр)
SAGE AI Service72.472.076.6
ChatGPT gpt-3.5-turbo-012522.359.832.3
ChatGPT gpt-4-0125-preview49.671.967.1
Yandex.Speller60.0xx
JamSpell26.9xx
HunSpell16.4xx

GitHubTypoCorpusRu

МодельPrecisionRecallF1
SAGE AI Service62.741.438.1
ChatGPT gpt-3.5-turbo-012529.428.725.3
ChatGPT gpt-4-0125-preview35.738.230.2
Yandex.Speller48.3xx
JamSpell37.3xx
HunSpell29.6xx

*Yandex.Speller, JamSpell и HunSpell не исправляют пунктуационные ошибки и ошибки регистра, поэтому в соответствующих колонках стоит x.

Текущие ограничения

  • Можно загружать текст длиной до 1000 символов;
  • Текущее решение поддерживает только русский язык.

Будущие возможности

Сервис развивается, запланированы следующие улучшения: Поддержка нескольких языков. Постепенно будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России.

Инструкция по использованию

Входные параметры:

# обязательный параметр:
`text` - оригинальный текст для исправления. Непустая строка не длиннее 1000 символов.

Запрос выглядит следующим образом:

{"instances": [{"text": "text"}] }

На выходе:

{'comment': ['OK'],
'origin': 'тест с ошыбкой',
'predictions': 'тест с ошибкой',
'success': True,
'version': '1.0.0'}

Ресурсы

Лицензирование

Модель FRED-T5-1.7B, на основе которой сделан сервис, и её исходный код поставляются на основе лицензии MIT. Сервис генеративной проверки орфографии является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / Cloud.ru.

Обратная связь

По вопросам, связанным с работой и применением модели можно обращаться к менеджеру продукта: Павел Лебедев PIgLebedev@sberbank.ru.