Машинско преведување

Од Википедија — слободната енциклопедија

Машинското преведување (скрат. МП) е дел од сметачката лингвистика која го истражува користењето на компјутерскиот софтвер за преведување на текст или говор од еден природен јазик на друг. На основно ниво, МП извршува едноставна замена на зборови од еден природен јазик со зборови од друг јазик. Со користење на корпус техниките, може да се постигне посложено преведување, овие техники допуштаат подобра манипулација со разликите во јазичаричката типологија, препознавање на фрази, превод на идиоми, како и изолација на аномалии.

Сегашниот софтвер за машинско преведување најчесто овозможува преведување во потесни домени или професии (како што се временски прогнози и извештаи) — на тој начин што е ограничен опсегот на можни замени на зборовите. Оваа техника посебно е делотворна во домени каде се користи формален јазик. Исто така машински преведени текстови на владини или други правни документи може да бидат од корист за разлика од помалку стандардизирани текстови.

Подобрен превод може да се постигне доколку во процесот на преведување се интервенира од страна на човекот: пример некои системи се способни да преведуваат многу подобро ако од страна на човекот се определи кои зборови во текстот се именки. Со помош на овие техники, МП се покажало како корисна алатка при преведување од страна на човекот, во многу мал број на случаи, може да се добие превод кој може да се користи таков каков што е даден (пример временска прогноза).

Историја[уреди | уреди извор]

Идејата за машинско преведување потекнува уште од 17. век. Во 1629 г. Рене Декарт предложил т.н. универзален јазик, т.е. еквивалентни идеи во различни јазици да имаат заеднички симбол. Во 1950 г., во експериментот Џорџтаун се направил превод на преку шеесет реченици од руски на англиски јазик. Експериментот бил голем успех и претставувал сериозна основа за понатамошни истражувања во полето на машинското преведување. Тогаш, авторите на овој софтвер тврделе дека за 3-5 години, машинското преведување ќе биде решен проблем.

Практичниот напредок во ова поле бил многу побавен, така по ALPAC извештајот во 1966 г., се востановило дека десетгодишните истражувања не вродиле со плод и не ги оствариле очекувањата. Со тоа финансирањето на ваквии проекти било значително намалено. На почетокот од 1980 г., како резултат на зголемената моќ на сметачите и нивната се помала цена, се зголемува и интересот за статистичките модели на машинско преведување.

Идејата за користење на дигиталните сметачи за преведување на природните јазици била изложена на почетокот од 1946 г. од страна на Ендрју Доналд Бут (Andrew Donald Booth) и други. Џорџтаун експериментот секако дека е прва апликација од овој вид, а треба да се има предвид и демонстрацијата направена 1954 г. на APEXC машината на Биркбек колеџот за основно преведување од англиски на француски јазик. Објавени се неколку статии на оваа тема во некои популарни журнали (како на пример Wireless World, септември 1955, Cleave and Zacharov). Слична апликација, исто така направена за првпат на Биркбек колеџот во тоа време, била и апликацијата за читање и создавање на брајов текст со помош на сметач.

Процес на преведување[уреди | уреди извор]

Процесот на преведување може да се дефинира како:

  1. Декодирање на значењето на изворниот текст; и
  2. Ре-енкодирање на ова значење на целниот јазик.

Во позадина на оваа едноставно опишана процедура лежи комплексна когнитивна операција. За да се декодира значењето на изворниот текст во целост, преведувачот мора да ги толкува и анализира сите својства на текстот, процес кој бара длабоки познавања на граматиката, семантиката, синтаксата, идиомите, итн., на изворниот јазик, како и културата на неговите говорници. Преведувачот треба да има исти така длабоки познавања за да го ре-енкодира значењето на целниот јазик.

Тука лежи предизвикот во машинското преведување: како да се програмира сметачот за да може да го „разбере“ текстот како што тоа го разбира човекот, и ќе „создаде“ нов текст во целниот јазик кој ќе „звучи“ како да бил напишан од човек.

Кон решевање на овој проблем може да се пристапи на различни начини.

Пристапи[уреди | уреди извор]

Пирамида со споредбени длабочини на of intermediary representation. Меѓујазичното машинско преведување е најгоре, по што доаѓа преносното, па непосредното.

Машинското преведување може да се користи со методот кој се заснива на јазичарички правила, според кои зборовите би биле преведувани на јазичарички начин — најсоодветни (усно изговорени) зборови на целниот јазик кои ќе ги заменат оние во изворниот јазик.

Честопати се расправало дека успехот на машинското преведување бара прво да се реши прболемот на разбирањето на природниот јазик.

Општо, методите кои се засниваат на правила, го парсираат текстот, вообичаено создавајќи посредна, симболичка претстава, од каде во наредната фаза се создава текстот во целниот јазик. Со оглед на природата на посредната претстава, пристапот е опишан како меѓујазично машинско преведување или transfer-based машинско преведување. Овие методи бараат богати лексикони со морфолошки, синтаксни и семантички информации, како и голем број на правила.

Ако има доволно податоци, програмите за машинско преведување честопати даваат задоволителни резултати за роден говорник на еден јазик да го сфати приближното значење на тоа што било напишано од страна на другиот роден говорник. Проблемот е да се соберат доволен број на вистински податоци за да се подржи овој метод. Пример, голем мултијазичен корпус на податоци потребен за фунционирање на статистичките методи не е потребен за методите кои се потпираат на граматиката. Но тогаш, граматичките методи бараат вешт јазичар внимателно да ја дизајнира граматиката која се користи.

За преведување помеѓу блиски јазици, може да се користи техниката наречена shallow-transfer машинско преведување.

Поврзано[уреди | уреди извор]

Белешки[уреди | уреди извор]

Наводи[уреди | уреди извор]

  • Cohen, J.M., "Translation", Encyclopedia Americana, 1986, vol. 27, стр. 12–15. (англиски)
  • Hutchins, W. John; and Harold L. Somers (1992). An Introduction to Machine Translation. London: Academic Press. ISBN 0-12-362830-X. Архивирано од изворникот на 2009-04-22. Посетено на 2010-06-01. (англиски)
  • Claude Piron, Le défi des langues — Du gâchis au bon sens (The Language Challenge: From Chaos to Common Sense), Paris, L'Harmattan, 1994. (англиски)

Надворешни врски[уреди | уреди извор]