Поиск
product
iconAI-сервис
Генеративная проверка орфографии

Лучшая версия решения из библиотеки SAGE.

Лицензия
Public license
Бесплатно
Подключить
Категории
NLPM2M100pytorchspellcheckingnatural language generationпроверка орфографии
Разработчик
SberDevices, AGI NLP
Описание

Возможности

Модель генеративной проверки орфографии переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. Опечаточник был обучен на базе генеративной модели M2M100 в два этапа. Вначале модель обучалась на обширном датасете с “искусственными” ошибками: корпус был собран на основе русскоязычной википедии и транскриптов русскоязычных видео, затем в него автоматически внедрили опечатки и орфографические ошибки. На заключительном этапе корректор обучался на комбинации из двух датасетов, содержащих “человеческие” ошибки и синтетически сгенерированные.

Преимущества нашего решения

Консистентный перенос стиля

На данный момент коррекция орфографических ошибок в большинстве случаев сопряжена с приведением всех слов в тексте к норме языка, что приводит к нежелательным с точки зрения пользователя исправлениям, как, например, тут:

ОМГ, какооооой фильм, сто проц побегу смотртеь → ???, какой фильм, сто процентов побегу смотреть

Мы постарались научить модель отличать случайную опечатку или ошибку от намеренного искажения нормы: на последней стадии обучения модели подавались пары текстов, где вручную экспертами были исправлены только ненамеренные ошибки, чтобы в итоге получалось исправлять именно ошибки:

ОМГ, какооооой фильм, сто проц побегу смотртеь → ОМГ, какооооой фильм, сто проц побегу смотреть

Устойчивость к текстам из разных источников

Модель обучена на примерах, покрывающих большинство часто встречающихся источников текста и их особенностей, различные варианты форматирования и символы:

Статьи и выступления

Примеры работы

На входеНа выходе
Вытавка «Александ Иванов — мастир акварели. Жанр и пийзаж» проходит до 19 ноебря в Государственой Третьяековской галереи. Мусею принадлижыт значительное часть графическово наследия художника, включая свыше 700 отдельных листа и около 40 альбомов. Экспозиций включает в себя преимуществено пизажи и сцены из итальянской жизни.Выставка «Александр Иванов — мастер акварели. Жанр и пейзаж» проходит до 19 ноября в Государственной Третьяковской галерее. Музею принадлежит значительная часть графического наследия художника, включая свыше 700 отдельных листов и около 40 альбомов. Экспозиция включает в себя преимущественно пейзажи и сцены из итальянской жизни.
Пазетива и ынэргии Вам в ленту. Жывити, не нопригаесь. Пусь этат месиц буит яркем, тёплам и полнам только преятных маментов 🙏💖🙂🔥💫💫💫Позитива и энергии Вам в ленту. Живите, не напрягайтесь. Пусть этот месяц будет ярким, тёплым и полным только приятных моментов 🙏💖🙂🔥💫💫💫
Неполучаетсяставитьпрабелы,никтонипаймёт,штояпешуНе получается ставить пробелы,никто не поймёт,что я пишу

Метрики

Качество

Ниже представлены автоматические метрики для определения корректности работы спелл-чекеров. Мы приводим сравнение нашего решения как с открытыми автоматическими спелл-чекерами, так и с семейством моделей ChatGPT на всех четырёх имеющихся датасетах:

  • RUSpellRU: тексты, собранные из ЖЖ (ЖивойЖурнал), с вручную исправленными опечатками и ошибками;
  • MultidomainGold: примеры из 7 текстовых источников, включая открытый интернет, новости, социальные сети, отзывы, субтитры, стратегические документы и литературные произведения;
  • MedSpellChecker: тексты с ошибками из медицинских анамнезов;
  • GitHubTypoCorpusRu: орфографические ошибки и опечатки в коммитах на GitHub;

RUSpellRU

МодельPrecisionRecallF1
M2M100-1.2BBest87.771.1
ChatGPT gpt-3.5-turbo-030155.875.364.1
ChatGPT gpt-4-031457.075.963.9
ChatGPT text-davinci-00355.975.364.2
Yandex.Speller83.059.869.5
JamSpell42.132.836.9
HunSpell31.334.933.0

MultidomainGold

МодельPrecisionRecallF1
M2M100-1.2B Best62.359.360.8
ChatGPT gpt-3.5-turbo-030133.872.146.0
ChatGPT gpt-4-031434.073.246.4
ChatGPT text-davinci-00333.672.045.8
Yandex.Speller52.951.452.2
JamSpell25.730.628.0
HunSpell16.240.123.0

MedSpellChecker

МодельPrecisionRecallF1
M2M100-1.2B Best77.775.776.7
ChatGPT gpt-3.5-turbo-030153.267.659.6
ChatGPT gpt-4-031454.269.460.9
ChatGPT text-davinci-00347.868.456.3
Yandex.Speller80.647.860.0
JamSpell24.629.726.9
HunSpell10.340.216.4

GitHubTypoCorpusRu

МодельPrecisionRecallF1
M2M100-1.2B Best43.941.442.6
ChatGPT gpt-3.5-turbo-030143.857.049.6
ChatGPT gpt-4-031445.258.251.0
ChatGPT text-davinci-00346.558.151.7
Yandex.Speller67.737.548.3
JamSpell49.529.937.3
HunSpell28.530.729.6

Текущие ограничения

  • Можно загружать текст длиной до 1000 символов;
  • Модель не исправляет пунктуационные ошибки, пунктуация остаётся авторской;
  • Текущее решение поддерживает только русский язык.

Будущие возможности

Сервис развивается, запланированы следующие улучшения: Поддержка пунктуации и форматирования. Мы планируем добавить правку не только орфографических ошибок, но также пунктуации и форматирования. Поддержка нескольких языков. Постепенно будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России.

Инструкция по использованию

Входные параметры:

# обязательный параметр:
`text` - оригинальный текст для исправления. Непустая строка не длиннее 1000 символов.

Запрос выглядит следующим образом:

{"instances": [{"text": "text"}] }

На выходе:

{'comment': ['OK'],
'origin': 'тест с ошыбкой',
'predictions': 'тест с ошибкой',
'success': True,
'version': '1.0.0'}

Ресурсы

Лицензирование

Модель M2M100-1.2B, на основе которой сделан сервис, и её исходный код поставляются на основе открытой лицензии MIT. Сервис генеративной проверки орфографии является проприетарной разработкой, для его использования необходимо заключить договор с ML Space / Cloud.ru.