Генеративная проверка орфографии и пунктуации
Модель-корректор правит ваш текст, не исправляя ничего лишнего
7 GB
v2.0
Возможности
Модель генеративной проверки орфографии и пунктуации переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. Корректор был обучен на базе генеративной модели FRED-T5 в два этапа. Вначале модель обучалась на обширном датасете с “искусственными” ошибками: корпус был собран на основе русскоязычной википедии и транскриптов русскоязычных видео, затем в него автоматически внедрили опечатки, орфографические и пунктуационные ошибки. На заключительном этапе архитектура обучалась на комбинации из двух датасетов, содержащих “человеческие” ошибки и синтетически сгенерированные.
Преимущества нашего решения
Консистентный перенос стиля
На данный момент коррекция орфографических ошибок в большинстве случаев сопряжена с приведением всех слов в тексте к норме языка, что приводит к нежелательным с точки зрения пользователя исправлениям, как, например, тут:
ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ???, в новую версию торта добавили новую механику ???
Мы постарались научить модель отличать случайную опечатку или ошибку от намеренного искажения нормы: на последней стадии обучения модели подавались пары текстов, где вручную экспертами были исправлены только ненамеренные ошибки, чтобы в итоге получалось исправлять именно ошибки:
ОМГ, в новюу версию торча добавли новую механику чекпоинтинга → ОМГ, в новую версию торча добавили новую механику чекпоинтинга
*торч, чекпоинтинг - жаргонизмы, принятые в технической среде
Устойчивость к текстам из разных источников
Модель обучена на примерах, покрывающих большинство часто встречающихся источников текста и их особенностей, различные варианты форматирования и символы:
- Новости;
- Социальные сети;
- Отзывы;
- Субтитры;
- Открытый интернет;
- Блоги и статьи;
Статьи и выступления
- Рассказ про библиотеку SAGE, DataFest 2023
- Доклад про модели из SAGE, AI Journey 2023
- Статья про методы генерации синтетических ошибок, Dialogue 2023
- Статья про SAGE и наше лучшее решение, EACL 2024 Malta
Примеры работы
На входе | На выходе |
---|---|
Вытавка «Александ Иванов — мастир акварели. Жанр и пийзаж» проходит до 19 ноебря в Государственой Третьяековской галереи. Мусею принадлижыт значительное часть графическово наследия художника, включая свыше 700 отдельных листа и около 40 альбомов. Экспозиций включает в себя преимуществено пизажи и сцены из итальянской жизни. | Выставка «Александр Иванов — мастер акварели. Жанр и пейзаж» проходит до 19 ноября в Государственной Третьяковской галерее. Музею принадлежит значительная часть графического наследия художника, включая свыше 700 отдельных листов и около 40 альбомов. Экспозиция включает в себя преимущественно пейзажи и сцены из итальянской жизни. |
Бабушка выстовила зимнии рамы. И сразу в избе стало светло весела. За окном в кустах вороби чирикают ласточки щибечут ребетишки кричат и смеюца. | Бабушка выставила зимние рамы. И сразу в избе стало светло, весело. За окном в кустах воробьи чирикают, ласточки щебечут, ребятишки кричат и смеются. |
в течении этого процесса мне часто приходилось иметь дело с гореруководителями | В течение этого процесса мне часто приходилось иметь дело с гореруководителями. |
Метрики
Качество
Ниже представлены автоматические метрики для определения корректности работы спелл-чекеров. Пояснения орф., пункт., регистр указывают на метрики, отслеживающие качество исправления соответственно орфографических, пунктуационных ошибок и ошибок, связанных с неверным употреблением регистра. Мы приводим сравнение нашего решения как с открытыми автоматическими спелл-чекерами, так и с семейством моделей ChatGPT на всех четырёх имеющихся датасетах:
- RUSpellRU: тексты, собранные из ЖЖ (ЖивойЖурнал), с вручную исправленными опечатками и ошибками;
- MultidomainGold: примеры из 7 текстовых источников, включая открытый интернет, новости, социальные сети, отзывы, субтитры, стратегические документы и литературные произведения;
- MedSpellChecker: тексты с ошибками из медицинских анамнезов;
- GitHubTypoCorpusRu: орфографические ошибки и опечатки в коммитах на GitHub;
RUSpellRU
Модель | F1 (орф.) | F1 (пункт.) | F1 (регистр) |
---|---|---|---|
SAGE AI Service | 88.2 | 88.4 | 95.6 |
ChatGPT gpt-3.5-turbo-0125 | 42.7 | 73.7 | 79.0 |
ChatGPT gpt-4-0125-preview | 64.0 | 83.2 | 90.9 |
Yandex.Speller | 69.5 | x | x |
JamSpell | 36.9 | x | x |
HunSpell | 33.0 | x | x |
MultidomainGold
Модель | F1 (орф.) | F1 (пункт.) | F1 (регистр) |
---|---|---|---|
SAGE AI Service | 79.6 | 68.8 | 80.5 |
ChatGPT gpt-3.5-turbo-0125 | 27.1 | 36.2 | 49.1 |
ChatGPT gpt-4-0125-preview | 37.0 | 56.0 | 60.0 |
Yandex.Speller | 52.2 | x | x |
JamSpell | 28.0 | x | x |
HunSpell | 23.0 | x | x |
MedSpellChecker
Модель | F1 (орф.) | F1 (пункт.) | F1 (регистр) |
---|---|---|---|
SAGE AI Service | 72.4 | 72.0 | 76.6 |
ChatGPT gpt-3.5-turbo-0125 | 22.3 | 59.8 | 32.3 |
ChatGPT gpt-4-0125-preview | 49.6 | 71.9 | 67.1 |
Yandex.Speller | 60.0 | x | x |
JamSpell | 26.9 | x | x |
HunSpell | 16.4 | x | x |
GitHubTypoCorpusRu
Модель | Precision | Recall | F1 |
---|---|---|---|
SAGE AI Service | 62.7 | 41.4 | 38.1 |
ChatGPT gpt-3.5-turbo-0125 | 29.4 | 28.7 | 25.3 |
ChatGPT gpt-4-0125-preview | 35.7 | 38.2 | 30.2 |
Yandex.Speller | 48.3 | x | x |
JamSpell | 37.3 | x | x |
HunSpell | 29.6 | x | x |
*Yandex.Speller, JamSpell и HunSpell не исправляют пунктуационные ошибки и ошибки регистра, поэтому в соответствующих колонках стоит x.
Текущие ограничения
- Можно загружать текст длиной до 1000 символов;
- Текущее решение поддерживает только русский язык.
Будущие возможности
Сервис развивается, запланированы следующие улучшения: Поддержка нескольких языков. Постепенно будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России.
Инструкция по использованию
Входные параметры:
# обязательный параметр:
`text` - оригинальный текст для исправления. Непустая строка не длиннее 1000 символов.
Запрос выглядит следующим образом:
{"instances": [{"text": "text"}] }
На выходе:
{'comment': ['OK'],
'origin': 'тест с ошыбкой',
'predictions': 'тест с ошибкой',
'success': True,
'version': '1.0.0'}
Ресурсы
- Код библиотеки SAGE с методами аугментации, доступом к датасетам и открытым моделям, GitHub
- Открытая модель sage-fredt5-large после первой фазы обучения, HuggingFace
- Открытая модель sage-m2m100-1.2B после двух этапов обучения, HuggingFace
- Открытый легковесный аналог лучшего решения sage-fredt5-distilled-95m, HuggingFace
- Открытая модель sage-mt5-large для коррекции орфографии одновременно на русском и английском языках, HuggingFace
Лицензирование
Модель FRED-T5-1.7B, на основе которой сделан сервис, и её исходный код поставляются на основе лицензии MIT. Сервис генеративной проверки орфографии является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / Cloud.ru.
Обратная связь
По вопросам, связанным с работой и применением модели можно обращаться к менеджеру продукта: Павел Лебедев PIgLebedev@sberbank.ru.