Поиск
T5-large-spell-image

T5-large-spell

Открытое решение для коррекции орфографии из библиотеки SAGE

Лицензия

MIT

Размер файлов

3 GB

Версия

1.0

Модели-корректоры

  • ruM2M100-1.2B;
  • ruM2M100-418M;
  • FredT5-large;
  • T5-large: коррекция орфографии на английском языке;
  • 🔥 Сервис “Генеративная проверка орфографии”;

Возможности

Модель исправляет орфографические ошибки и опечатки путём приведения всех слов в тексте к норме английского языка.

Корректор был обучен на основе модели T5-large. В качестве обучающего корпуса был взят обширный датасет с “искусственными” ошибками: корпус был собран на основе русскоязычной википедии и транскриптов русскоязычных видео, затем в него автоматически внедрили опечатки и орфографические ошибки с помощью функционала библиотеки SAGE.

Преимущества нашего решения

Устойчивость к высокой плотности ошибок

Во время обучения, модели на “вход” подавались пары текстов, где один из текстов содержал ошибки и опечатки, а второй был корректным. При формировании текстов с ошибками, мы добавляли в 10 раз больше ошибок, чем в среднем содержится в предложениях, чтобы модель умела исправлять даже самые запутанные случаи, как, например, такой:

Th festeivаl was excelzecnt in many ways, and in particular it beinganinternational festjival sss a chаllenging, bet brilli an t ea.

Устойчивость к текстам из разных источников

Обучающий корпус для модели был собран из нескольких текстовых доменов:

Статьи из википедии и новости покрывают широкий спектр возможных словоформ, с которыми модель может столкнутся во время работы.

Статьи и выступления

Примеры работы

На входеНа выходе
Th festeivаl was excelzecnt in many ways, and in particular it beinganinternational festjival sss a chаllenging, bet brilli an t ea.The festival was excellent in many ways, and in particular it beinganinternational festival is a challenging, but brilliant one to see.
That 's why I believe in the solution which is the closest to human nature and can help us to avoid boredome. I am sure that eventually we will take off our clothes and in the future we will be undressed and free. There wo n't be any problem with being up - do - date .That's why I believe in the solution which is the closest to human nature and can help us to avoid boredom. I am sure that eventually we will take off our clothes and in the future we will be undressed and free. There won't be any problem with being up - do - date.
If you bought something goregous, you well be very happy.If you bought something gorgeous, you will be very happy.

Метрики

Качество

Ниже представлены автоматические метрики для определения корректности работы спелл-чекеров. Мы приводим сравнение нашего решения как с открытыми автоматическими спелл-чекерами, так и с семейством моделей ChatGPT на двух имеющихся датасетах:

  • BEA60K: орфографические ошибки на английском языке, собранные с нескольких доменов;
  • JFLEG: 1601 предложение на английском языке, которые содержат около 2 тыс. орфографических ошибок;

BEA60K

МодельPrecisionRecallF1
T5-large-spell66.583.173.9
ChatGPT gpt-3.5-turbo-030166.984.174.5
ChatGPT gpt-4-031468.685.276.0
ChatGPT text-davinci-00367.883.975.0
Bert (Neuspell)65.879.672.0
SC-LSTM (Neuspell)62.280.372.0

JFLEG

МодельPrecisionRecallF1
T5-large-spell83.484.383.8
ChatGPT gpt-3.5-turbo-030177.888.682.9
ChatGPT gpt-4-031477.988.382.8
ChatGPT text-davinci-00376.888.582.2
Bert (Neuspell)78.585.481.8
SC-LSTM (Neuspell)80.686.183.2

Инструкции по использованию

Использовать модель можно следующим образом:

from transformers import T5ForConditionalGeneration, AutoTokenizer

path_to_model = "<path_to_model>"

model = T5ForConditionalGeneration.from_pretrained(path_to_model)
tokenizer = AutoTokenizer.from_pretrained(path_to_model)
prefix = "grammar: "

sentence = "If you bought something goregous, you well be very happy."
sentence = prefix + grammar

encodings = tokenizer(sentence, return_tensors="pt")
generated_tokens = model.generate(**encodings)
answer = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(answer)

# ["If you bought something gorgeous, you will be very happy."]

Ресурсы

Лицензирование

Модель T5-large, на основе которой сделано наше решение, и её исходный код поставляются на основе лицензии APACHE-2.0. Наше решение поставляется на основе лицензии MIT.

Технические характеристики

  • Размер файлов: 3 Gb;
  • Фреймворк: pytorch
  • Tags: spellchecking проверка орфографии NLP T5 pytorch natural language generation
  • Формат: AI Service
  • Версия: v1.0
  • Разработчик: AGI NLP

Обратная связь

Круглосуточная поддержка по телефону 8 800 444-24-99, почте support@cloud.ru и в Telegram