Модель оцінки властивостей алгоритмів виправлення орфографічних помилок та її використання для україномовних за стосунків

Костенко, С. В.; Литвинов, Валерій Андроникович

Модель оцінки властивостей алгоритмів виправлення орфографічних помилок та її використання для україномовних за стосунків

dc.contributor.author	Костенко, С. В.
dc.contributor.author	Литвинов, Валерій Андроникович
dc.date.accessioned	2022-02-10T20:22:48Z
dc.date.available	2022-02-10T20:22:48Z
dc.date.issued	2021
dc.description.abstract	Значна частина підходів та методів автоматичного виправлення помилок правопису є мовозалежною, орієнтованою на врахування граматичних правил і фонетики конкретної мови.Переважна більшість робіт у цій сфері присвячена англомовним текстам, менша частина – іншим мовам германської групи, зовсім мала – слов’янським мовам і мізерна – українській мові. Розглядаються інструментарій (імітаційна модель (ІМ)) та пробні результати оцінки коригуючих властивостей деяких алгоритмів по відношенню до виправлення типових помилок тайпінга в україномовних словах за умови попередньої індексації словника. ІМ має модульну структуру і конфігурується до конкретних словників, типів помилок, алгоритмів генерації індексів. Для заданої комбінації «словник – тип помилок – алгоритм» ІМ спотворює слова заданого словника помилкою і шукає найбільш «близькі» слова-кандидати на виправлення помилкового слова. Загальний алгоритм обробки слова, в якому виявлено помилку, включає попередній вибір (ПВ) множини слів-кандидатів за правилами алгоритму індексації та остаточний вибір (ОВ) – пріоритезація обраних слів і звуження області пошуку «правильного» слова за прийнятими критеріями близькості до слова, що виправляється, і різними критеріями відбору. Пробне моделювання проведено для фонетичних алгоритмів Soundex і Metaphone, адаптованих до української мови. Як ансамбль помилок прийнятий набір помилок тайпінга, що включає чотири різні базові одиночні помилки (заміни, вставки, пропуски і перестановки символів), а також подвійні помилки, що представляють собою зважену суміш базових помилок. Опрацьовано 59,6 млн помилкових слів, середній час обробки одного слова склав 0,07 мс. Обговорюються результати моделювання, що містять загальну кількість коректованих помилкових слів за видами помилок, кількість коректних пропозицій слів-кандидатів, кількість помилкових пропозицій, кількість відсутніх пропозицій, середню кількість кандидатів у пропозиціях на етапах ПВ і ОВ.	uk_UA
dc.identifier.citation	Костенко, С. В. Модель оцінки властивостей алгоритмів виправлення орфографічних помилок та її використання для україномовних за стосунків / С. В. Костенко, В. А. Литвинов // Математичні машини і системи. – 2021. – № 2. – С. 62–73.	uk_UA
dc.identifier.uri	https://dspace.nuft.edu.ua/handle/123456789/37078
dc.language.iso	uk	uk_UA
dc.subject	правопис	uk_UA
dc.subject	імітаційна модель оцінки алгоритмів індексації словника	uk_UA
dc.subject	spell checking	uk_UA
dc.subject	simulation model for estimating dictionary indexing algorithms	uk_UA
dc.subject	кафедра інформаційних технологій, штучного інтелекту і кібербезпеки	uk_UA
dc.title	Модель оцінки властивостей алгоритмів виправлення орфографічних помилок та її використання для україномовних за стосунків	uk_UA
dc.type	Article	uk_UA

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 02_21.pdf
Розмір:: 742,13 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 1,71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Статті