Д. Кузьменко. Формальна класифікація парадигм і синтез словоформ англійського іменника

Дмитро Кузьменко, студент IV курсу відділення української філології Інституту філології КНУ ім. Т.Шевченка

Повна назва статті: Формальна класифікація парадигм і синтез словоформ англійського іменника (для системи українсько-англійського автоматичного перекладу).

Опубліковано: Мовні і концептуальні картини світу. Випуск 9. - К.: ВПЦ "Київський університет", 2003. - 403 с. - С.: 142 - 144.

Частиною будь-якої системи автоматичного перекладу є формальне представлення парадигматики, тобто набору граматичних форм у межах граматичного класу. Це необхідно, по-перше, для укладання парадигматичних класів, що використовуються і в автоматичному морфологічному аналізі, і в синтезі. По-друге, щоб укласти класифікацію, позначивши кожну граматичну форму і граматичний клас певним кодом, що використовуватиметься протягом всього процесу перекладу.

Граматичний клас – це формальний аналог поняття "частина мови". Відмінність полягає у функціональному підході до їх виділення. Тому, наприклад, іменники поділятимуться на два граматичних класи – власні та загальні назви, а прикметники, дієприкметники, порядкові числівники складатимуть один граматичний клас – ад’єктивів.

Парадигматичний клас – це слова, парадигма яких містить однакову кількість граматичних форм, що утворюються за однаковим принципом стосовно синтетичних і аналітичних мовних засобів. Для синтетичних форм це буде однаковий набір флексій, однакові буквенні і позиційні зміни.

Обов’язковим етапом автоматичного перекладу є синтез словоформ мовою, на яку здійснюється переклад. За правилами трансляційної граматики словоформи і фрази вхідної мови у початковій формі трансформуються у перекладні еквіваленти вихідної за допомогою автоматичного словника. Потім вони вводяться у речення відповідно до його синтаксичної структури.

Наприклад, потрібно перекласти одне зі слів речення – іменник в родовому відмінку. Після морфологічного, контекстного та синтаксичного аналізу й перекладу попередніх слів, система утворює від даного іменника початкову форму, потім за автоматичним словником відшуковує його перекладний еквівалент. Далі виконується правило трансляційної граматики, наприклад, вказується, що слово в даному контексті має перекладатися присвійним відмінком однини. При цьому трансляційна граматика враховує можливість або неможливість слова утворити ту чи іншу форму. Якщо перекладний еквівалент може утворити потрібну форму в дію вступає програма синтезу й породжує її.

 

Англійський іменник має лише чотири граматичні форми: загальний відмінок однини, присвійний відмінок однини, загальний відмінок множини й присвійний відмінок множини. Категорія роду, що є важливою і класифікаційною для українського іменника, в англійському відсутня.

Іменник складатиметься з двох формальних граматичних класів: власних  та загальних назв. Поряд з граматичним класом існує поняття граматичного підкласу, що фактично дорівнює поняттю граматичної форми. Англійський іменник матиме чотири граматичні підкласи. У результаті код на позначення словоформи складатиметься з двох символів, перший вказує на граматичний клас, другий – на граматичний підклас, тобто граматичну форму: {SS, SP, SN, SM}, {sS, sP, sN, sM}.

За типом утворення цих форм я виділив 41 парадигматичний клас для синтезу на програмній мові аналізу словоформ (на базі системи українсько-російського автоматичного перекладу "ПЛАЙ") або 50 парадигматичних класів для синтезу у системі багатомовного автоматичного перекладу, що розробляється у Мовно-інформаційному фонді АН України. Різниця в кількості через певні відмінності у програмній реалізації.

 

Програми синтезу можуть бути різними. Залежно від типу мови обирається найбільш оптимальний підхід. Для українського іменника використовується синтез за допомогою квазіфлексій (назвемо його умовно "словниковим синтезом"). Програма відповідно до номеру парадигматичного класу за списком квазіфлексій відшуковує "закінчення" потрібної граматичної форми. Квазіфлексія додається до квазіоснови й словоформа вводиться у потрібну синтаксичну структуру. Для англійського іменника можна використовувати синтез за допомогою процедур (назвемо його "процедурним синтезом"). Тобто, якщо кількість парадигматичних класів невелика (до 100), породження форм описуються невеликою кількістю процедур. Тоді програма згідно з номером парадигматичного класу породжуватиме потрібну форму за відповідною процедурою. Є ще один підхід, коли вважається, що для мов з невеликим набором словоформ (як англійська), їх усі можна повністю задавати в словнику. У цьому випадку можна обійтись без синтезу синтетичних форм, програма просто відшуковуватиме потрібну форму за словником.

Процедурний синтез був реалізований на базі системи ПЛАЙ за допомогою програмної мови аналізу словоформ. Він працює за такою схемою:

У основній програмі (це може бути програма трансляції або якась інша) викликається підпрограма, що й здійснює синтез. Перед цим слову у початковій формі має бути присвоєний той клас/підклас, який потрібно синтезувати. Підпрограма перевіряє його, потім звіряє це слово за окремим списком виключень і квазіфлексій, де вказується номер їх парадигматичного класу (якщо п.к. не відомий). Далі, в залежності від номеру парадигматичного класу виконується потрібна процедура. Всього для англійської мови було створено процедур 29. Після виходу з підпрограми утворена словоформа може прямо вноситися в текст або брати участь в утворенні якоїсь конструкції. Переваги цього підходу в тому, що різні квазіфлексії можуть об’єднуватись в одній процедурі, також одна процедура може утворювати багато форм. Наприклад, для утворення присвійного відмінку однини і множини використовується тільки дві процедури, тоді як в наступному підході для кожного з 50 парадигматичних класів треба вказати по дві квазіфлексії. Проте основний його недолік в тому, що цю програму не можна використовувати для лематизації – зведення до початкової форми – на етапі автоматичного аналізу.

Словниковий синтез був підготовлений у вигляді бази даних для програмної реалізації у системі багатомовного перекладу Мовно-інформаційного фонду. Він має вигляд трьох таблиць у базі даних Microsoft Access. Перша містить реєстр слів з вказаним граматичним класом та номером парадигматичного класу. В укладеному мною реєстрі знаходиться 5750 іменників (загальних назв). У другій таблиці вказується номер парадигматичного класу і кількість літер, які потрібно відрізати для утворення квазіоснови. Третя таблиця містить набір квазіфлексій для всіх форм всіх парадигматичних класів. Тут помітна більша громіздкість цього підходу для англійської мови: якщо в процедурному синтезі форми породжувались за допомогою 29 процедур, то в словниковому – за допомогою 216 квазіфлексій, більшість з яких повторюється. Проте ця робота виправдана, оскільки ці дані легко використати і для створення програми лематизації, що необхідна при автоматичному морфологічному аналізі.

Результатом даної роботи було створення діючої програми синтезу англійського іменника на базі системи ПЛАЙ (www.mova.info/) та бази даних для синтезу у багатомовній системі автоматичного перекладу Мовно-інформаційного фонду Академії наук України.

 

1. Кулагина О.С. Исследования по машинному переводу. М., 1979. 2. Марчук Ю.Н. Проблемы машинного перевода. М., 1983. 3. Слокум Дж. Обзор разработок по машинному переводу // НЗЛ. Вып. ХХIV. M., 1989. 4. Piotrowsky R., Romanov Y. Machine Translation in the Former Soviet Union and in the Newly Independent States // Histoire Épistémologie Langage 21/1 1999. 5. Miram G. Translation Algorithms. K., 2001.

 

 

Reply

The content of this field is kept private and will not be shown publicly.
CAPTCHA
This question is for testing whether you are a human visitor and to prevent automated spam submissions.
5 + 0 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.

Безкоштовний хостинг TOPUA