Прејди на содржината

Корпус текстови

Од Википедија — слободната енциклопедија

Во лингвистиката и обработката на природните јазици, корпус (мн. : корпуси) или текстуален корпус е збир на податоци кој се состои од нативно дигитални и постари, дигитализирани, јазични ресурси, или анотирани или неанотирани.

Анотираните, тие се користат во корпусната лингвистиката за статистчко тестирање на хипотези, проверка на појави или валидација на лингвистички правила во конкретен јазичен простор.

Корпусот може да содржи текстови на еден јазик (еднојазичен корпус) или текстуални податоци на повеќе јазици (повеќејазичен корпус).

Со цел корпусите да бидат покорисни за вршење лингвистичко истражување, тие често се подложени на процес познат како анотирање. Пример за анотирање на корпус е дел означен на говорот, или ПОС означување, при што се додаваат информации за дел од говорот (глагол, именка, придавка, итн.) за секој збор во корпусот во форма на ознаки. Друг пример е означување на лемата (основната) форма на секој збор. Кога јазикот на корпусот не е работен јазик на истражувачите кои го користат, се користи интерлинеарно глосирање за да се направи анотацијата двојазична.

Некои корпуси имаат применето дополнителни структурирани нивоа на анализа. Особено, помалите корпуси може да бидат целосно да се анализирани. Таквите корпуси обично се нарекуваат Treebanks или Parsed Corpora. Тешкотијата да се осигура дека целиот корпус е целосно и доследно анотиран значи дека овие корпуси обично се помали и содржат околу еден до три милиони зборови. Можни се и други нивоа на лингвистичка структурирана анализа, вклучително и прибелешки за морфологијата, семантиката и прагматиката .

Апликации

[уреди | уреди извор]

Корпусите се главната база на знаење во корпусната лингвистиката. Други значајни области на примена вклучуваат:

  • Јазични технологии, обработка на природен јазик, пресметковна лингвистика
    • Анализата и обработката на различни видови корпуси се исто така предмет на многу работа во компјутерската лингвистика, препознавањето говор и машинскиот превод, каде што тие често се користат за создавање скриени Маркови модели за дел од означување на говор и други цели. Корпусите и листата на фреквенции добиени од нив се корисни за учење на јазик. Корпусот може да се смета како вид на помош за пишување на странски јазик бидејќи контекстуализираното граматичко знаење стекнато од корисници на не-мајчин јазик преку изложување на автентични текстови во корпуси им овозможува на учениците да го сфатат начинот на формирање реченици на целниот јазик, овозможувајќи ефективно пишување.
  • Машински превод
    • Повеќејазичните корпуси кои се специјално форматирани за споредба страна до страна се нарекуваат алинирани паралелни корпуси. Постојат два главни типа на паралелни корпуси кои содржат текстови на два јазика. Во преводен корпус, текстовите на еден јазик се преводи на текстови на другиот јазик. Во споредлив корпус, текстовите се од ист вид и опфаќаат иста содржина, но не се преводи еден на друг.[1] За искористување на паралелен текст, предуслов за анализа е некаков вид на усогласување на текстот со кој се идентификуваат еквивалентни текстуални сегменти (фрази или реченици). Алгоритмите за машинско преведување за преведување помеѓу два јазика често се обучуваат користејќи паралелни фрагменти кои сочинуваат корпус од прв јазик и корпус од втор јазик, што претставува превод елемент-за-елемент на корпусот на првиот јазик.
  • Филологии
    • Текстуалните корпуси исто така се користат во проучувањето на историските документи, на пример во обидите да се дешифрираат древни скрипти или во библиското учење. Некои археолошки корпуси можат да бидат со толку кратко траење што даваат пресликана слика од времето. Еден од најкратките корпуси во времето може да биде текстовите на писмата од Амарна од 15 до 30 години (1350 п.н.е.). Корпусот на антички град, (на пример, „Текстовите на Култепе “ од Турција), може да помине низ низа корпуси, утврдени според датумите на нивното наоѓање.

Некои значајни текстуални корпуси

[уреди | уреди извор]

Поврзано

[уреди | уреди извор]
  • Согласност
  • Корпусна лингвистика
  • Културомика
  • Дистрибутивно-релациона база на податоци
  • Конзорциум за лингвистички податоци
  • Обработка на природен јазик
  • Прирачник за природен јазик
  • Паралелен текст
  • Говорниот корпус
  • Преведувачка меморија
  • Брег на дрво
  • Зипфовиот закон
  1. Wołk, K.; Marasek, K. (7 April 2014). „Real-Time Statistical Speech Translation“. New Perspectives in Information Systems and Technologies, Volume 1. Advances in Intelligent Systems and Computing. 275. Springer. стр. 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357.