Оксфордски корпус на англискиот јазик

Од Википедија — слободната енциклопедија

Оксфордскиот корпус на англискиот јазик (англ. Oxford English Corpus) — зборовен корпус на англискиот јазик кој го користат изработувачите на Оксфордскиот речник на англискиот јазик (Oxford English Dictionary, OED) и јазичната истражна програма на Издаваштвото на Оксфордскиот универзитет (Oxford University Press). Ова е најголемиот корпус од овој вид во светот, со над две милијарди зборови.[1] Изворите за овие зборови се најразлични творби, од „литературни романи и специјалистички журнали, секојдневни весници и списанија, и од Хансард до јазикот на чет-собите, е-писма и блогови“[2]. За разлика од ова, сличните бази на податоци содржат само творби од извесен вид.

Дигиталната верзија на Оксфордскиот корпус на англискиот јазик е форматирана со XML и обично се анализира со софтвер за „скицирање“ (Sketch Engine).[3]

Секој документ од корпусот во себе содржи и метаподатоци naming:

  • наслов
  • автор (ако е познат; на многу портали ова е тешко да се одреди)
  • пол на авторот (ако е познат)
  • тип на јазик (на пр. британски англиски, американски англиски)
  • изворно мрежно место
  • година (+ датум, ако е познат)
  • дата на придодавање кон збирката
  • домен + поддомен
  • статистики за документот (број на симболи, реченици итн.)[3]

Наводи[уреди | уреди извор]

  1. AskOxford.com: Како се скрати ОЕД[мртва врска]. (англиски) Пристапено на: 2 декември, 2007.
  2. AskOxford.com: Оксфордскиот корпус на англискиот јазик Архивирано на 23 јуни 2006 г.. (англиски) Пристапено на 2 декември, 2007.
  3. 3,0 3,1 Технички информации[мртва врска]. (англиски) Пристапено на 22 јуни, 2006.

Поврзано[уреди | уреди извор]

Надворешни врски[уреди | уреди извор]