Откривање на плагијати

Од Википедија, слободната енциклопедија
Прејди на: содржини, барај

Oткривање на плагијати е процес на наоѓање на случаи на плагијат во рамките на некој труд или документ. Широката употреба на компјутери и доаѓањето на интернетот многу ја олеснуваат можноста на плагијаризам на работата на другите. Повеќето случаи на плагијат се наоѓаат во академиите, каде што документите се обично есеи или извештаи. Сепак, плагијати може да се најдат во речиси секое поле, вклучувајќи ги и научните трудови, уметничките дизајни и изворниот код.

Откривање на плагијат може да биде рачно или со помош на компјутер. Рачното откривање бара значителни напори и одлична меморија и е непрактично во случаи кога мора да се споредат премногу документи или оригиналните документи не се достапни за споредба. Со помош на компјутерското откривање се овозможува огромни збирки на документи да се споредат со едни со други, за што поуспешно и многу поверојатно откривање на плагијати.

Oткривање на плагијати со помош на компјутер[уреди]

Детекција на плагијат со помош на компјутер е пребарување на информации и е поддржана од страна на специјализирани системи кои се нарекуваат системи за откривање на плагијати.

Oткривање на плагијати на текст-документи[уреди]

Системи за откривање на текст-плагијати имплементираат еден од двата генерички пристапи за откривање, од кои едниот е надворешен, a другиот е суштински. [1]Надворешните системи споредуваат еден сомнителен документ со референтна колекција која е збир на документи за кои се претпоставува дека се оригинални.[2]

Врз основа на избран документен модел и претходно дефинирани критериуми за сличност, задачата на откривање плагијат е да се добијат сите документи кои содржат текст кој е сличен до одреден степен со текстот во сомнителниот документ.[3]

Суштинскиот пристап го анализира текстот што треба да се оценува без вршење на споредби со надворешни документи. Овој пристап има за цел да ги препознае промените во уникатниот стил на пишување на авторот како индикатор за потенцијален плагијат.[4]

Програмите за откривање плагијати не се способни за сигурно идентификување на плагијати без човечко расудување. Сличностите се откриваат со помош на претходни модели на документи и може да бидат лажно позитивни.[5] [6] [7] [8] .[9]


Детектирачки методи[уреди]

Сликата подолу претставува класификација на предложените методи за откривање на плагијат со помош на компјутер од техничка гледна точка. Техниките се карактеризираат според типот на сличност на оценување на кои се однесуваат. Глобалните проценки за сличност користат карактеристики земени од поголеми делови од текстот или документот како целина за одредување на сличност, додека локалните методи се ограничени на текст сегменти како влез.

Класификација на компјутерски методи за детекција на плагијаризам

Земање на отпечатоци моментално најмногу се применува кога ставува збор за пристап со помош на компјутер за детекција на плагијат. Постапката води до добивање на документи со избирање на множество на повеќе подзборови (n-грам) од нив. Множествата претставуваат отпечатоци од прсти и нивните елементи се нарекуваат детали.[10] .[11]

Сомнителниот документ се проверува дали е плагијат преку компјутерска обработка на отпечатоците и со помош на претходно пресметан индекс на отпечатоци за сите документи во референтната колекција. Деталите со оние на другите документи покажуваат заеднички текст сегменти и предложуваат можни плагијати.[11]

Општо земено, само подмножество на детали се споредува со цел да се забрза процесот и да се овозможи проверка кога станува збор за голема колекција на документи, како што е на пример интернетот.[10]

Проверка на документи за преклопување на текст претставува проблем на класично поврзување на зборови познат и во другите области на информатиката. Предложени се бројни пристапи за успешно справување со оваа задача, од кои некои се прилагодени за надворешни детектори за плагијаризам. Проверка на сомнителен документ со оваа опција бара пресметка и чување на ефикасно споредливи репрезентации за сите документи во референтната колекција, со која се споредуваат парови на стрингови. Општо земено, моделите за суфикс документот, како на пример суфикс дрва или суфикс вектори, се адаптирани за оваа задача во контекст на компјутерско отркивање на плагијаризам. Сепак, поврзувањето на подстрингови останува скап метод, што го прави не-прифатливо решение за проверка на колекции со голем број на документи.[12] [13] [14]

Анализа на куп на зборови претставува усвојување на пребарување на векторски простор, што е традиционален концепт на отркивање на плагијаризам, во доменот на компјутерско отркивање. Документите се претставени како еден или повеќе вектори, на пример, за различни делови на документот, кои се користат за |интелгиентни пресметки за сличност на парови. Овие може да биде врз основа на традиционалната мерка за косинус сличност или други софистицирани функции за сличност.[15] [16] [17]


Откривање на плагијати базирано на цитати со помош на компјутерски пристап е метод дизајниран за употреба кај академските документи, бидејќи не се потпира на самиот текст, туку на цитатите и референтните информации. Ги идентификува сличните модели во цитат секвенците на две академски работи. Ваквите модели претставуваат поднизи кои исклучиво содржат цитати од двата документи кои се споредуваат.[18] [19] .[20]

Стилометрија опфаќа статистички методи за квантифицирање на авторски уникатен стил на пишување и се користи главно за авторство. [21] [22] Со создавање и споредување со стилометриски модели за различни сегменти од текстот, може да се откријат пасуси кои се стилски различни од другите, па оттука и потенцијално да се детектира плагијат.

Системи за откривање на плагијати кај текст-документи[уреди]

Генералниот дизајн на системи за откривање на академски плагијат насочен за текст документи вклучува голем број на фактори:

Фактор Опис и алтернативи
Опсег на пребарување Во јавен интернет, со користење на пребарувачи / институционални бази на податоци / локален систем, специфицирани бази на податоци.
Анализа на време Потребно време меѓу времето кое се доставува документот и времето кога резултатите се достапни.
Капацитетот за документи / Серија за обработка Број на документи кои системот може да ги процесира за единица време.
Проверка на интензитет Колку често и за кои видови на фрагменти од документот (ставови, реченици, зборовни секвенци со фиксна должина) системот пребарува надворешни ресурси, како што пребарувачите.
Споредба на тип на алгоритам Алгоритми кои го дефинираат начинот на кој системот споредува едни со други документи.
Прецизност Број на документи кои правилно се означени како плагијат во споредба со вкупниот број на означени документи, како и вкупниот број на документи кои се всушност плагијати. Висока точност значи дека само неколку лажно позитивни документи биле пронајдени.

Повеќето големи системи за откривање на плагијати користат големи, внатрешни бази на податоци (во прилог на други ресурси) кои се прошируваат со секој дополнителен документ поднесен за анализа. Сепак, ова се смета од страна на некои како евентуална повреда на авторските права на студентите.


Следниве системи се веб-базирани, со исклучок на ситемот CopyTracker, со затворен код. Следнава листа е неисцрпна:

Слободни
Chimpsky
CitePlag
CopyTracker
eTBLAST
Plagium
SeeSources
The Plagiarism Checker
Plagiarism Detect
Комерцијални
Attributor
Copyscape
Ithenticate, Turnitin
Plagiarismdetect
PlagScan
Veriguid


Откривање на перформанси[уреди]

Компаративна евалуација на системи за откривање на плагијати укажува на тоа дека нивните перформанси зависат од видот на плагијатите [2][23][24][25][26][27]што треба да се откријат (види слика). Освен анализа на цитати, сите откривачки пристапи се потпираат на текстуална сличност. Затоа е симптоматично дека откривање на точноста се намалува кога се опфатени повеќе случаи на плагијати.

Детекција со компјутерски пристап базирано на типот на плагијаризмот

Буквалните копии, таканаречени copy & paste плагијат, или скромно маскирани случаи на плагијат може да се откријат со висока точност со помош на сегашните надворешни пристапи ако изворот е достапен на софтверот. Особено процедурите за поврзување на зборови може да постигнат добри перформанси, бидејќи тие најчесто користат модели на документи без загуба, како на пример суфиксни дрва. Анализата на системи кои користат отпечатоци или куп од зборови во откривањето на копии зависи од загуба на информации направени од страна на документниот модел кој го користи. Со примена на селекциски стратегии тие се подобро оспособени за откривање на умерена форми на маскирани плагијати во споредба со процедури за појавување на поднизи.

Внатрешнo откривање на плагијат со користење на стилометрија може да ги надмине границите на текстуални сличности до одреден степен во споредба на јазичната сличност. Со оглед на тоа дека стилските разлики помеѓу плагијатите и оригиналните сегменти се значајни и може да се идентификуваат со сигурност, стилометријата може да помогне во идентификување на маскирани и парафразирани плагијати. Стилометричките споредби веројатно ќе пропаднат во случаите каде што сегментите се силно парафразирани до таа точка кога повеќе наликуваат на личен стил на пишување. Резултатите од меѓународните натпревари за откривање на плагијати одржани во 2009, 2010 и 2011 година,[2][26][27] as well as experiments performed by Stein,[28] укажуваат на тоа дека стиломтеричката анализа работи со сигурност добро само за документи со должина од неколку илјади или десетици илјади зборови.

Зголемување на бројот на истражувања се врши на методи и системи способни за откривање на преведени плагијати. Во моментов, детекција на јазичен плагијат не се гледа како зрела технологија и соодветните системи не се во можност да постигнат задоволувачки резултати за откривање во пракса.

Откривањето на плагијат базирано на цитати е способно за идентификување на посилни парафрази и преводи со повисоки стапки на успех во споредба со другите откривачки пристапи, благодарение на фактот дека е независен од текстуалните карактеристики. Но, анализата зависи од достапноста на цитат информации се ограничува на академски текстови. Останува инфериорен во однос на текст-базираните пристапи во откривање на плагијат кај пократки пасуси, кои се типични во случаи на копија.

Откривање на плагијати на изворен код[уреди]

Плагијатите кај компјутерските кодови се исто така честа појава и потребни се различни алатки од оние кои се користат во текстуални документи. Притоа, значајни истражувања се посветуваат на академски плагијати на изворен код.

Посебен аспект на плагијати на изворен код е дека не постои збирно место на есеи, како што може да се најде кај традиционалните плагијати. Бидејќи во повеќето програмски задачи се очекува студентите да пишуваат програми со многу специфични барања, многу е тешко да се најдат постоечки програми кои ги исполнат барањата. Бидејќи интегрирање на надворешен код е често потешко од пишување од нула, студентите избираат повеќето плагијати да ги направат од своите врсници.

Според Рој и Корди, алгоритмите за откривање на сличност на изворен код можат да се класифицираат врз основа на

  • Стрингови - бара точни текстуални поврзувања на сегменти. Брз метод, но може да биде помешан со преименувањето идентификатори.
  • Токени - како со стрингови, но со користење на лексер за да се конвертира програма во симболи во прв план. Ова отфрла празни коментари и идентификаторски имиња, правејќи го системот робустен на едноставни текст замени. Повеќето академски системи за откривање користат различни алгоритми за мерење на сличноста помеѓу знаковните секвенци.
  • Парсирачки дрва - да се изградат и да се споредат парсирачки дрва. Ова овозможува да бидат откриени сличности на поголемо ниво.
  • График со повици - го доловува вистинскиот тек на контрола во програмата, и овозможува да бидат лоцирани еквиваленции на многу повисоко ниво.
  • Метрика - метрика открива "резултати" на код сегментите според одредени критериуми, на пример, "бројот на јамки и услови", или "бројот на различни променливи што се користат". Метриките се едноставни да се пресметаат и може да се споредат брзо, но, исто така, може да доведат до лажно позитивни резултати.
  • Хибридни пристапи - на пример, парсирачки дрва и суфикс дрва можат да се комбинираат за откривање на способноста на парсирачки дрва со брзина дозволена од суфиксот дрва, еден вид на податочна структура со поврзување на стригнови.

Претходната класификација е развиена за рефакторирање код, а не за детекција на академски плагијат (важна цел на рефакторирањето е да се избегне удвоен код, познат во литературата како клониран код). Горенаведените пристапи се ефикасни за различни нивоа на сличност; ниско ниво сличност се однесува на идентичен текст, додека високо ниво на сличност може да се однесува на слични спецификации. Во академска средина, кога сите ученици се очекува да ги искодираат истите спецификации, се очекува функционално еквивалентен код (со високо ниво на сличност), а само ниско ниво сличност се смета како доказ на мамење.

Системи за откривање на плагијати на изворен код[уреди]

Програмите MOSS и JPlag може да се користaт бесплатно, но и двете бараат регистрација и софтверот останува комерцијален. Персоналните системи се нормални десктоп апликации, како и повеќето од нив се и бесплатни и објавени како софтвер со отворен код.


Наводи[уреди]

  1. Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (Dec 2007), „Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection PAN’07“, „SIGIR Forum“ 41 (2), doi:10.1145/1328964.1328976, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007o.pdf 
  2. 2,0 2,1 2,2 Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), „Overview of the 1st International Competition on Plagiarism Detection“, „PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection“, CEUR Workshop Proceedings, 502, стр. 1–9, ISSN 1613-0073, http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/potthast09-overview-first-international-competition-plagiarism-detection.pdf 
  3. Stein, Benno; Meyer zu Eissen, Sven; Potthast, Martin (2007), „Strategies for Retrieving Plagiarized Documents“, „Proceedings 30th Annual International ACM SIGIR Conference“, ACM, стр. 825–826, doi:10.1145/1277741.1277928, ISBN 978 1 59593 597 7, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2007f.pdf 
  4. Meyer zu Eissen, Sven; Stein, Benno (2006), „Intrinsic Plagiarism Detection“, „Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, London, UK, April 10–12, 2006 Proceedings“, Lecture Notes in Computer Science, 3936, Springer, стр. 565–569, doi:10.1007/11735106_66, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2006d.pdf 
  5. Bao, Jun-Peng; Malcolm, James A. (2006), „Text similarity in academic conference papers“, „2nd International Plagiarism Conference Proceedings“, Northumbria University Press, http://www.plagiarismadvice.org/images/stories/old_site/media/2006papers/JunPengBao.pdf 
  6. Clough, Paul (2000), „Plagiarism in natural and programming languages an overview of current tools and technologies“, Department of Computer Science, University of Sheffield, http://www.ir.shef.ac.uk/cloughie/papers/plagiarism2000.pdf 
  7. Culwin, Fintan; Lancaster, Thomas (2001), „Plagiarism issues for higher education“, „Vine“ 31 (2): 36–41, doi:10.1108/03055720010804005, http://www.essaycoursework.com/howtowriteessaynet/pdf/plagiarism-higheredu.pdf 
  8. Lancaster, Thomas (2003), „Effective and Efficient Plagiarism Detection“, School of Computing, Information Systems and Mathematics South Bank University, http://www.bcu.academia.edu/documents/0009/4554/Lancaster_2003.pdf 
  9. Maurer, Hermann; Zaka, Bilal (2007), „Plagiarism - A Problem And How To Fight It“, „Proceedings of World Conference on Educational Multimedia, Hypermedia and Telecommunications 2007“, AACE, стр. 4451–4458, http://www.editlib.org/p/26021 
  10. 10,0 10,1 Hoad, Timothy; Zobel, Justin (2003), „Methods for Identifying Versioned and Plagiarised Documents“, „Journal of the American Society for Information Science and Technology“ 54 (3): 203–215, doi:10.1002/asi.10170, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.18.2680&rep=rep1&type=pdf 
  11. 11,0 11,1 Stein, Benno (jul 2005), „Fuzzy-Fingerprints for Text-Based Information Retrieval“, „Proceedings of the I-KNOW ‘05, 5th International Conference on Knowledge Management, Graz, Austria“, Springer, Know-Center, стр. 572–579, ISSN 0948-695x, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2005a.pdf 
  12. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), „Document Overlap Detection System for Distributed Digital Libraries“, „Proceedings of the fifth ACM conference on Digital libraries“, ACM, стр. 226–227, doi:10.1145/336597.336667, ISBN 1-58113-231-X, http://www.csse.monash.edu.au/projects/MDR/papers/dl2000-monostori.pdf 
  13. Baker, Brenda S. (February 1993) (gs), „On Finding Duplication in Strings and Software“, AT&T Bell Laboratories, NJ, http://cm.bell-labs.com/cm/cs/doc/93/2-bsb-1.ps.gz 
  14. Khmelev, Dmitry V.; Teahan, William J. (2003), „SIGIR'03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval“, ACM, стр. 104–110, doi:10.1145/860435.860456, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.6155&rep=rep1&type=pdf 
  15. Si, Antonio; Leong, Hong Va; Lau, Rynson W. H. (1997), „CHECK: A Document Plagiarism Detection System“, „SAC ’97: Proceedings of the 1997 ACM symposium on Applied computing“, ACM, стр. 70–77, doi:10.1145/331697.335176, ISBN 0-89791-850-9, http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf 
  16. Dreher, Heinz (2007), „Automatic Conceptual Analysis for Plagiarism Detection“, „Information and Beyond: The Journal of Issues in Informing Science and Information Technology“ 4: 601–614, http://proceedings.informingscience.org/InSITE2007/IISITv4p601-614Dreh383.pdf 
  17. Muhr, Markus; Zechner, Mario; Kern, Roman; Granitzer, Michael (2009), „External and Intrinsic Plagiarism Detection Using Vector Space Models“, „PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection“, CEUR Workshop Proceedings, 502, стр. 47–55, ISSN 1613-0073, http://www.uni-weimar.de/medien/webis/research/events/pan-09/pan09-papers-final/zechner09-external-and-intrinsic-plagiarism-detection-using-vsm.pdf 
  18. Gipp, Bela; Beel, Jöran (June 2010), „Citation Based Plagiarism Detection - A New Approach to Identifying Plagiarized Work Language Independently“, „Proceedings of the 21st ACM Conference on Hypertext and Hypermedia (HT'10)“, ACM, стр. 273–274, doi:10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, http://www.sciplore.org/publications/2010-Citation_Based_Plagiarism_Detection_-_A_New_Approach_to_Identify_Plagiarized_Work_Language_Independently_-_preprint.pdf 
  19. Gipp, Bela; Meuschke, Norman; Beel, Jöran (June 2011), „Comparative Evaluation of Text- and Citation-based Plagiarism Detection Approaches using GuttenPlag“, „Proceedings of 11th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL’11)“, ACM, стр. 255–258, doi:10.1145/1998076.1998124, ISBN 978-1-4503-0744-4, http://www.sciplore.org/publications/2011-Comparative_Evaluation_of_Text-_and_Citation-based_Plagiarism_Detection_Approaches_using_GuttenPlag.pdf 
  20. Gipp, Bela; Meuschke, Norman (September 2011), „Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence“, „Proceedings of the 11th ACM Symposium on Document Engineering (DocEng2011)“, ACM, стр. 249–258, doi:10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, http://www.sciplore.org/publications/2011-Citation_Pattern_Matching_Algorithms_for_Citation-based_Plagiarism_Detection--Greedy_Citation_Tiling,_Citation_Chunking_and_Longest_Common_Citation_Sequence.pdf 
  21. Holmes, David I. (1998), „The Evolution of Stylometry in Humanities Scholarship“, „Literary and Linguistic Computing“ 13 (3): 111–117, doi:10.1093/llc/13.3.111 
  22. Juola, Patrick (2006), „Authorship Attribution“, „Foundations and Trends Information Retrieval“ 1: 233–334, doi:10.1561/1500000005, ISSN 1554-0669, http://www.mathcs.duq.edu/~juola/papers.d/fnt-aa.pdf 
  23. (на German) „Portal Plagiat - Softwaretest 2004“, HTW University of Applied Sciences Berlin, http://plagiat.htw-berlin.de/ff-alt/05hilfen/programme.html, конс. 6 октомври 2011 
  24. (на German) „Portal Plagiat - Softwaretest 2008“, HTW University of Applied Sciences Berlin, http://plagiat.htw-berlin.de/software/2008/, конс. 6 октомври 2011 
  25. (на German) „Portal Plagiat - Softwaretest 2010“, HTW University of Applied Sciences Berlin, http://plagiat.htw-berlin.de/software/2010-2/, конс. 6 октомври 2011 
  26. 26,0 26,1 Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), „Overview of the 2nd International Competition on Plagiarism Detection“, „Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy“, http://clef2010.org/resources/proceedings/clef2010labs_submission_125.pdf 
  27. 27,0 27,1 Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), „Overview of the 3rd International Competition on Plagiarism Detection“, „Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands“, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011t.pdf 
  28. Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), „Intrinsic Plagiarism Analysis“, „Language Resources and Evaluation“ 45 (1): 63–82, doi:10.1007/s10579-010-9115-y, ISSN 1574-020X, http://www.uni-weimar.de/medien/webis/publications/papers/stein_2011a.pdf 

Надворешни врски[уреди]