Семантичка пајажина

Од Википедија, слободната енциклопедија
Прејди на: содржини, барај

Семантичка пајажина (англиски: Semantic Web) претставува "пајажина од податоци" што им овозможува на машините да ја разберат семантиката или значењето на информациите на пајажината. Ја проширува мрежата од поврзаните мрежни страници разбирливи за човекот на тој начин што додава т.н. метаподатоци (податоци за податоците) за страниците и за тоа како истите се заемно поврзани овозможувајќи им на автоматските агенти да пристапат до пајажината на поинтелигентен начин и да извршат некоја задача наместо корисниците. Може да се дефинира како глобално поврзана база на податоци, во која секој може да внесе или да добие каков било тип на податоци.

Семантичката пајажина претставува визија за информација која е разбирлива за сметачите, со што тие би го извеле поголемиот дел од работата потребна за барање, споделување и комбинирање на информациите на Пајажината. Иако сметачите се најважни за функционирањето како и за креирањето и одржувањето на пајажината, тие самите не можат да најдат некаква смисла во сите тие информации. Тие не можат да ги прочитаат информациите, да најдат некаква релација или да донесат некакви одлуки врз основа на тие информации, како што може човекот. Семантичката пајажина е додаток на Светската пајажина, во која се дефинираат семантиката на информацијата и сервисите на пајажината, со што се овозможува пајажината да ги разбере и задоволи барањата на корисниците, како и машините да ја користат Пајажина содржината. Обезбедува стандардизиран начин во изразувањето на релациите помеѓу мрежните страници, дозволувајќи им на машините да го разберат значењето на хиперлинковите.

Терминот бил измислен од Тим Бернерс – Ли, креатор на пајажината и директорот на World Wide Web Consortium ("W3C"), кој го контролира развојот на стандардите на семантичката пајажина. Тој го дефинира семантичката пајажина како пајажина од податоци што може да бидат обработени директно или индиректно од машините.

Терминот Семантичка пајажина почесто се однесува на неговите формати и технологии. Овие технологии го вклучуваат Resource Description Framework (RDF), голем број на податочни формати за разменување (пример RDF/XML, N3, Turtle, N-Triples) и нотации како RDF шемата (RDFS) и Web Ontology Language (OWL), сите со намера да овозможат формален опис на концептите, терминологијата и врските во границите на даден домен.

Многу од технологиите предложени од W3C веќе постојат и се користат во различен контекст, особено оние кои се справуваат со информација што опфаќа ограничен и дефиниран домен, и каде делењето податоци е неопходно, како што се научните истражувања или разменувањето на податоци помеѓу различните бизниси. Како и да е Семантичката пајажина е и изворно предвидено, е систем што им овозможува на машините да сфатат и одговорат на сложените барања на човекот врз основа на нивното значење и останаа нереализирани во голема мера оставајќи им на критичарите да се сомневаат во нивната брза реализација.

Семантика[уреди]

Семантиката е наука за значењето на зборовите. Семантичката пајажина е пајажина кој е способен да ги опише работите на начин кој сметачите може да го разберат. На пример да ги земеме следниве реченици :

Битлси се популарен бенд од Ливерпул.
Џон Ленон беше член на Битлси.
Песната “Hey Jude” е снимена од страна на Битлси. 

Овие реченици се разбирливи за луѓето. Но како да ги разберат сметачите? Речениците се градат со синтаксички правила. Но како може синтаксата да стане семантика? Токму ова го разгледува семантичката пајажина. Тој ги опишува релациите помеѓу објектите (како: А е дел од Б или А припаѓа во Б ) и својствата на објектите (на пример: големина, тежина, возраст и цена).

WWW наспроти Семантичка пајажина[уреди]

Пребарувањето на информација со некое позадинско знаење , на пример на ваков начин: “животни кои користат сонар, но не се ни лилјаци ни делфини” е невозможно со сегашниот пајажина. World Wide Web е главно заснован на документи напишани во HTML. Семантичката пајажина ги објавува податоците во јазик RDF, така што со нив може да се манипулира слично како и со податочните податотеки во локалниот сметач. HTML-от ги опишува документите и врските измеѓу нив. За разлика од него, RDF опишува произволни објекти како луѓе, средби или делови од авион. На пример со HTML и алатка за рендерирање на HTML, може да креираме и презентираме страница која листа производи за продажба. HTML-от на оваа страница може да даде едноставни тврдења на ниво на документи, како: “насловот на документот е ‘Продажба на алат’ ”. Но во рамките на HTML нема можност недвосмислено да потврди дека на пример, предметот со број X586172 е бoрмашина со цена од 200 евра, или дека е продукт за продажба. Наспроти , HTML може само да потврди дека span со текст “X586172” е нешто што би требало да се позиционира блиску до “бoрмашина” и “200 евра”. Не постои начин да покаже дека се работи за каталог на производи или дека “бoрмашина” е алат или “200 евра” е цена. Исто така не постои начин да се изрази дека овие информации заедно опишуваат еден дискретен поим, различен од останатите кои се постојат на страницата. Семантичката пајажина ги надминува овие пропусти, користејќи описни технологии како RDF и OWL, флексибилниот XML. Овие технологии се комбинирани со цел да овозможат описи кои ја дополнуваат или заменуваат содржината на Пајажина документите. Така содржината може да биде претставена во вид на описни податоци зачувани во достапни бази на податоци, или како означувачки јазик во рамките на документите. Описите кои се читливи за машините овозможуваат програмерите да додаваат значење на содржината, т.е. да ја опишат структурата на знаењето која ја имаме за таа содржина. На овој начин, машините може самостојно да обработуваат знаења, наместо обичен код, користејќи постапки слични на човековото дедуктивно резонирање, со што се стекнуваме со позначајни резултати и се овозможува автоматизирано збирање и пребарување на информациите кај сметачите.

Составни делови на семантичката пајажина[уреди]

Архитектурата на Семантичката пајажина дава хиерархија на јазици, во облик на магацин, каде секој слој ги користи способностите на слоевите под него. Овој магацин покажува како технологиите кои се стандардизирани за Семантичката пајажина се организирани за да може да функционира. Оваа илустрација е креирана од Тим Бернерс Ли. Треба да се напомене дека овој магацин ќе се менува и развива како што се менува и развива и самиот семантичка пајажина. Низ пример најдобро ќе ги објасниме поважните делови од кои е изграден семантичката пајажина. Да претпоставиме дека сакаме следнава реченица да биде разбирлива за сметачот:

Анакин Скајвокер е татко на Лук Скајвокер.

За нас е многу лесно да заклучиме што значи прва реченица т.е. што некој сакал да каже со оваа реченица. Анакин и Лук се човешки суштества и има некаква врска помеѓу нив. Ние знаеме дека „татко“ е вид на родител и истата реченица исто така значи дека Лук му е син на Анакин, но сметачот не може да разбере ништо од тоа без некаква помош. За да му се овозможи на сметачот да разбере што значи таа реченица ќе треба да додадеме некои информации кои што ќе опишуваат кои се Анакин и Лук и кој е нивниот однос (релација). Тие дополнителни информации треба да можат да бидат прочитани од страна на сметачот. За тоа се користат следниве две алатки : XML и RDF (Resource Description Framework). XML е јазик за означување исто како и HTML. RDF го прави тоа што го иницира и неговото име т.е. преку користење на XML тагови, обезбедува модел (рамка) за да ги опише ресурсите. Од гледна точка на RDF, речиси се во светот претставува ресурс. Овој модел ги спојува ресурсите со конкретен предмет или локација на пајажина така што сметачот знае што претставува изворот. Јасно е дека со идентификување на ресурсите, сметачот нема да направи грешка помеѓу Анакин Скајвокер и Себастијан Шај или Хајден Кристијансен. За да го направи ова, RDF користи тројки (triples) напишани како XML тагови за да ја претстави оваа информација како граф. Овие тројки се состојат од предмет, својство и објект кои соодвестуваат на подмет, прирок и предмет во реченицата. Во овој пример, сметачот знае дека има два ентитети во реченицата и дека постои некаква релација помеѓу нив, но не знае што се ентитетите и како се тие поврзани помеѓу себе. Дури и со моделот кој што го обезбедуваат XML и RDF, на сметачот сеуште му е потребен многу директен и конкретен начин на разбирање на тоа кои или што се овие ресурси. За да го направи тоа, RDF користи униформен идентификатор на ресурси URI за да го упати сметачот кон документ или објект кој што претставува ресурс. Најпозната форма на URI e униформниот локатор на ресурси URL. URI може да покажува на било што на пајажината и исто така може да покажува кон објекти кои што не се дел од пајажината. За нашиот пример ќе ги користиме официјалните страници за карактерите од триологијата “Војна на ѕвездите” како URI покажувачи:

Субјект(Anakin Skywalker) http://www.starwars.com/databank/character/anakinskywalker/index.html/
Својство (е татко на) http://howstuffworks.com/example/RDF/relationship#fatherof
Објект (Luke Skywalker)  http://www.starwars.com/databank/character/lukeskywalker/index.html/

Сметачот сега знае што се субјектот и објектот т.е. Анакин Скајвокер е ентитетот претставен со првото URI и Лук Скајвокер е ентитетот претставен со третото URI .URI-то кое што се наоѓа во средината на тројката (својството) не покажува кон страната на “Војна на ѕвездите” т.е. покажува кон некој трет документ (страница) во кој што е опишано својството помеѓу тие два ентитета. Доколку третиот документ (страница) навистина постои, тој ќе биде XML именски простор. XML и RDF се “официјалните јазици” на семантичката пајажина, но самите по себе не се доволни за да го направат целиот пајажина достапен за сметачите. Друга пречка за семантичката пајажина е тоа што сметачите немаат таков вокабулар како и луѓето. За да може да го разбере значењето и поврзаноста помеѓу зборовите, сметачот мора да има некакви документи (описи) кои што ќе ги опишуваат сите зборови и целата логика за да може да ги направи потребните поврзувања. Има две меѓусебно поврзани алатки кои му помагаат на сметачот да го разбере човековиот јазик. Онтологијата е вид на речник кој што ги опишува објектите и нивната меѓусебна поврзаност. Шемата претставува метод за организирање на информациите (податоците). Референцирањето на онтологиите и шемата се врши од страна на креаторот на документот (ресурсот) со користење на мета податоци. RDF Vocabulary Description Language Schema (RDFS) – додава класи, поткласи и својства на ресурсите. OWL (Ontology Web Language) e најсложениот слој. Служи за формализација на онтологиите, ги опишува релациите (врските) помеѓу класите и користи логика за да донесе заклучоци. Може да конструира и нови класи засновани на веќе постоечките информации. Проблемот со онтологиите е тоа што тие се многу тешки за креирање, имплементирање и оддржување. Зависно од нивниот поглед, тие можат да бидат огромни, дефинирајќи широк опсег на концепти и релации. Некои девелопери претпочитаат повеќе да се фокусираат на логика и правила отколку на онтологии токму поради овие тешкотии. Една од целите на семантичката пајажина е да им дозволи на агентите, програмската опрема и на пајажина програмие да пристапат и да ги користат метаподатоците. Клучната алатка која што е потребна за да се постигне ова е SPARQL – Simple Protocol and RDF Query Language, јазик кој што сеуште е во фаза на развој. Целта на SPARQL е да ги извади податоците од RDF графовите. Тој може да бара податоци, да ги ограничи и подреди резултатите. Една од предностите на RDF структурата е тоа што овие прашања можат да бидат многу точни и можат да дадат многу прецизни резултати.

URI[уреди]

URI (еднообразен ресурсен идентификатор) низа од карактери користена да идентификува ресурс на семрежето. Таквата идентификација овозможува интеракција во презентирањето на еден ресурс над некоја мрежа (обично светската пајажина; (WWW)) користејќи специфични протоколи. URI може да биде класифициран како локатор (URL), како име (URN), или комбинација од двете. Со други зборови: URN го дефинира идентитетот на еден ресурс, додека URL овозможува метод за негово пронаоѓање. Може да дадеме URI на било што, и секој ресурс што има URI може да се смета дека е дел од Пајажината. Претставува основа на Пајажината. Било кој друг дел може да биде заменет, освен URI-то : овој идентификатор го оддржува остатокот од Пајажината заедно. Пајажината е преголем за да може да се контролира од било која организација, затоа URI-ата се децентрализирани. Секој може да креира URI, па дури и за работи кои не ги поседува. Оваа флексибилност од една страна го прави овој метод моќен, но истовремено создава извесни проблеми. Голема е веројатноста еден ресурс да биде повеќе пати идентификуван со различни URI-а. Уште полошо никогаш не може да дознаеме дали две URI-a се однесуваат на истиот ресурс. Но сите овие отстапки мора да бидат направени, за да може да се креира нешто толку големо како Семантичката пајажина. Во основа претставува име за некој ресурс. URI не претставува множество од правила кои му кажуваат на сметачот како да пристапи да извесна податотека на Пајажина (иако може да го прави тоа). Тој ресурс може но и не мора да биде достапен преку семрежјето. URI-то може но не мора да му овозможува на сметачот повеќе информации околу ресурсот. Иако можноста “да се кажуваат некој работи” во однос на ресурсот претставен со извесно URI е битен дел од Семантичката пајажина, но сепак во својата основа служи за идентификација на еден ресурс.

XML - Проширлив означувачки јазик[уреди]

XML- Extensible Markup Language е множество на правила користено за енкодирање на документите во форма разбирлива за машините. XML цели кон едноставност, генерализација и корисност низ семрежјето. Стотици програмски јазици се развиени на основа на XML, меѓу кои : RSS, Atom, SOAP и XHTML. Претставува тексуален податочен формат со силна поддршка за светските јазици преку Unicode. Дозволува секој да дизајнира свој формат и да напише документ во истиот формат. Овие формати треба да вклучуваат означувач за да се збогати значењето на содржината на документот. Програмите може да го прочитаат и разберат истиот.

 <h2>Nonmonotonic Reasoning: ContextDependent Reasoning</h2>
 <i>by <b>V. Marek</b> and 
 <b>M. Truszczynski</b></i><br>
 Springer 1993<br>
 ISBN 0387976892

Погоре на сликата имаме чист HTML, а сликата долу ги претставува истите информации во XML формат:

<book>
<title>Nonmonotonic Reasoning: ContextDependent Reasoning</title>
<author>V. Marek</author>
<author>M. Truszczynski</author>
<publisher>Springer</publisher>
<year>1993</year>
<ISBN>0387976892</ISBN>
</book>

Секој дел од информацијата е опишан. Преку вгнездувањето се дефинираат релациите. Така таговите <author> се појавуваат во рамките на <book> таговите, со што дознаваме дека опишуваат некое својство на некоја книга. Постои еден проблем во овој пристап на XML. Зборовите кои ги користиме во таговите може да се прилично чести ( како во нашиот пример со книга, автор, година) . Така и други корисници може да ги употребат истите зборови во нивниот XML, па дури и да им дадат поинакво значење ( пр. година на издаваштво и година на раѓање ). Заради тоа се користат XML именски простори (namespaces). Со нив на секој елемент или атрибут користен, се доделува соодветен URI. На овој начин, секој може да креира свои тагови и да ги комбинира со тагови создадени од други.

RDF - Рамка за опишување на ресурси[уреди]

RDF- претставува формат за дефинирање на информациите на пајажина. Означувачки јазик за опишување на информациите и ресурсите на пајажина. Со внесувањето на информации во RDF податотеки, се овозможува на сметачите да пребаруваат, откриваат, земаат, анализираат и обработуваат информации од пајажината. Семантичката пајажина го користи RDF за да ги опише пајажина ресурсите. RDF обезбедува модел за податоци, и синтакса која може да биде разменувана и користена од различни страни. Дизајниран да биде разбирлив и читлив за сметачите, а не за луѓето. RDF исказот е доста сличен со обична проста реченица, со тоа што скоро сите зборови во неа се URIа. Секој RDF изказ има три дела : субјект, предикат и објект. Да погледнеме едноставен RDF исказ:

<http://aron.com/>
<http://love.example.org/terms/навистинаСака>
<http://www.w3.org/People/Berners-Lee/Weaving/>

Првото URI претставува субјект. Во овој исказ тоа е Арон. Второто URI претставува предикат. Го поврзува субјектот со објектот. Во овој пример предикатот е “навистинаСака”. Третото URI е објектот. Тука објект е книгата на Тим Бернерс Ли “Weaving the Web”. Со тоа овој исказ ни кажува дека Арон навистина ја сака книгата “Weaving the Web”. Кога информацијата е во дадениот формат, лесно е истата да се обработи, затоа што RDF e генерички формат, кој веќе содржи многу парсери. Горниот пример е напишан во N-Triples, јазик кој дозволува да напишете едноставни RDF искази. Официјалната RDF спецификација дефинира XML репрезентација на RDF, што е малку покомплицирана , но ја кажува истата работа:

<rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax- ns#">
<rdf:Description rdf:about="">
<dc:creator rdf:parseType="Resource">
<foaf:name>Sean B. Palmer</foaf:name>
</dc:creator>
<dc:title>The Semantic Web: An Introduction</dc:title>
</rdf:Description>
</rdf:RDF>

Овој RDF ни кажува дека некој натпис има наслов “The Semantic Web: An introduction” и истиот е напишан од некој човек со име “Sean B. Palmer”. Овој RDF ги продуцира следниве тројки:

<> <http://purl.org/dc/elements/1.1/creator> _:x0 .
this <http://purl.org/dc/elements/1.1/title> "The Semantic Web: An Introduction" .
_:x0 <http://xmlns.com/0.1/foaf/name> "Sean B. Palmer" .

Овој формат претставува текстуална серијализација на RDF која се нарекува “Notation 3”.

RDF шема[уреди]

RDF информациите се чуваат во бази на податоци. Шема претставува документ или парче код кој контролира множество термини во друг документ или парче код. Преку шеми и онтологии се врши опис на значењето и релациите помеѓу термините. RDF шемата е дизајнирана за да обезбеди едноставен datatyping модел за RDF. Со користење на шемата, можеме да кажеме дека на пример “Рекс” е вид на “Куче”, и дека “Куче” е подкласа на “Животно”. Служи за креирање на својства и класи, како и опсези и домени за својствата. Постојат три концепти кои треба да ги познаваме Resource (rdfs:Resource), Class (rdfr:Class) и Property (rdfr:Property). Tермините може да припаѓаат на овие три класи. На пример, сите термини во RDF се типови на ресурси. За да декларираме дека нешто е “тип” на нешто друго, го користиме rdf:type својството, така на пример:

Rdfs:Resource rdf:type rdfs:Class.
rdfs:Class rdf:type rdfs:Class .
rdf:Property rdf:type rdfs:Class .
rdf:type rdf:type rdf:Property .

ова кажува дека Ресурсот е вид на класа, класата е вид на класа, својството е вид на класа, и вид е вид на својство”. RDF шемата нуди низа други својства кои може да се користат како rdfs:subClassOF или rdfs:subPropertyOf. Овие дозволуваат да кажеме дека една класа или својство е подкласа или подсвојство на друга. Други корисни концепти кои вреди да се напоменат се опсег и домен. Тие ни дозволуваат да дефинираме во кои класи припаѓаат субјектот и објектот на секое својство. rfds:domain кажува во која класа припаѓа субјектот, a rdfs:range ја дефинира класата на припадност на објектот. Шемата обезбедува брзо градење на бази на знаења во RDF.

Надворешни врски[уреди]


Користена литература[уреди]

  • В. Трајковиќ: Експертни системи - скрипта. ФЕИТ, УКИМ, Скопје, 2010.