Техники за анализа на податоци за откривање измамници

Од Википедија — слободната енциклопедија

Вовед[уреди | уреди извор]

Измама што вклучува мобилни телефони, побарувања за осигурување, побарувања за даночна пријава, трансакции со кредитни картички, државни набавки и сл. претставуваат значителни проблеми за владите и бизнисите и потребни се специјализирани техники за анализа за откривање измама со нивна употреба. Овие методи постојат во областите на откривање на знаење во базите на податоци (KDD), рударство на податоци, машинско учење и статистика.Тие нудат применливи и успешни решенија во различни области на кривични дела за електронска измама.[1]

Општо, основната причина да се користат техники за анализа на податоци е да се справи со измамите, бидејќи многу системи за внатрешна контрола имаат сериозни слабости. На пример, моментално преовладувачкиот пристап што го применуваат многу агенции за спроведување на законот за откривање на компании вклучени во потенцијални случаи на измама се состои во добивање на докази или поплаки од укажувачите.[2] Како резултат, голем број случаи на измама остануваат неоткриени и незаштитени. Со цел ефикасно тестирање, потврдување, исправување на грешки и следење на системите за контрола против измамнички активности, деловните субјекти и организациите се потпираат на специјализирани техники за анализа на податоци, како што се рударство на податоци, совпаѓање на податоци, регресивна анализа, анализа на кластерирање и јаз. Техниките што се користат за откривање на измами спаѓаат во две основни класи: статистички техники и вештачка интелигенција.

Статистички техники[уреди | уреди извор]

Примери за техники за статистичка анализа на податоци се:

  • Техники за преработка на податоци за откривање, валидација, исправка на грешка и пополнување на исчезнати или неточни податоци.
  • Пресметка на различните статистички параметри како што се просеци, квантили, метрика на перформанси, веројатносна распределба итн. На пример, просечните вредности може да вклучуваат просечна должина на повик, просечен број на повици месечно и просечни доцнења во плаќањето на сметката.
  • Модели и веројатносна распределба на разни деловни активности или во смисла на различни параметри или веројатносна распределба.
  • Анализа на временски низи на податоци зависни од времето.
  • Кластерирање и класификација за наоѓање обрасци и асоцијации меѓу групи на податоци.
  • Совпаѓање на податоците Совпаѓањето на податоците се користи за споредување на две групи собрани податоци. Процесот може да се изврши врз основа на алгоритми или програмирани јамки. Обидувајќи се да совпаѓате групи на податоци едни против други или да споредувате сложени типови на податоци. Совпаѓањето на податоците се користи за отстранување на дупликат запис и идентификување на врски помеѓу две множества податоци за маркетинг, безбедност или други намени.
  • Звучи како функција се користи за наоѓање вредности што звучат слично. Фонетската сличност е еден од начините да се лоцираат можни дупликати вредности или неконзистентен правопис во рачно внесените податоци. Функцијата „Звучи како“ ги претвора низите за споредување во четири карактери со американски Soundex кодови, кои се засноваат на првата буква и првите три согласки по првата буква, во секоја низа.
  • Анализата на регресија ви овозможува да ја испитате врската помеѓу две или повеќе променливи од интерес. Регресивната анализа ги проценува односите помеѓу независните променливи и зависната променлива. Овој метод може да се искористи за да помогне во разбирање и идентификување на односите меѓу променливите и да се предвидат реалните резултати.
  • Анализата на јазот се користи за да се утврди дали се исполнети деловните барања, ако не, кои се чекорите што треба да се преземат за успешно исполнување.
  • Соодветни алгоритми за откривање на аномалии во однесувањето на трансакциите или корисниците во споредба со претходно познатите модели и профили. Потребни се и техники за да се елиминираат лажните аларми, да се проценат ризиците и да се предвиди иднината на тековните трансакции или корисници.

Некои форензички сметководители се специјализирани во форензичка анализа, што е набавка и анализа на електронски податоци за реконструкција, откривање или на друг начин поддршка на тврдење за финансиска измама. Главните чекори во форензичката анализа се собирање на податоци, подготовка на тие податоц и нивна анализа. На пример, форензичка анализа може да се искористи за да се прегледаат активностите на картичката за набавка на вработен за да се процени дали некое од набавките било пренасочено или насочено за лична употреба.

Техники на вештачка интелигенција[уреди | уреди извор]

Откривањето на измама е активност интензивна на знаење. Главните техники на АИ кои се користат за откривање на измами вклучуваат:

  • Рударство на податоци за класифицирање, групирање и сегментирање на податоците и автоматски наоѓање асоцијации и правила во податоците што може да означуваат интересни обрасци, вклучително и оние поврзани со измама.
  • Стручни системи за кодирање на експертиза за откривање на измама во форма на правила.
  • Препознавање на моделот за откривање приближни класи, групи или модели на сомнително однесување или автоматски (без надзор) или да се совпаднат со дадените влезови.
  • Техники за машинско учење за автоматско идентификување на одликите на измама.
  • Нервните мрежи за независно генерирање на класификација, групирање, генерализирање и предвидување, што потоа може да се спореди со заклучоците изнесени во внатрешните ревизии или формалните финансиски документи како што е 10-Q .

Други техники како што се анализа на врски, баезиски мрежи, теорија на одлуки и совпаѓање на низата се користат и за откривање на измама. Исто така, користена е нова и нова техника, наречена Систем за својства, каде што има достапни податоци за рангирање.[3]

Статистичката анализа на податоците од истражувањето е најсеопфатниот метод за утврдување дали постои измама со податоци. Измамата со податоци, дефинирана од Канцеларијата за интегритет на истражувањето (ОРИ) вклучува измислување, фалсификување и плагијат.

Машинско учење и ископување податоци[уреди | уреди извор]

Техниките за рана анализа на податоци беа ориентирани кон извлекување на квантитативни и статистички одлики на податоците. Овие техники олеснуваат корисни толкувања на податоците и можат да помогнат да се добие подобар увид во процесите што стојат зад податоците. Иако традиционалните техники за анализа на податоци индиректно можат да не доведат до знаење, сепак тие се создадени од човечки аналитичари.

За да се надмине, системот за анализа на податоци треба да биде опремен со значителен износ на знаење од позадина и да може да извршува задачи за расудување што ги вклучува тоа знаење и дадените податоци Во обид да ја исполнат оваа цел, истражувачите се свртеа кон идеи од полето за машинско учење. Ова е природен извор на идеи, бидејќи задачата за машинско учење може да се опише како претворање на позадинското знаење и примери (влез) во знаење (излез).

Ако рударството на податоци резултира во откривање на значајни обрасци, податоците се претвораат во информации. Информациите или моделите што се нови, валидни и потенцијално корисни не се само информации, туку знаење. Некој зборува за откривање на знаење, претходно скриен во огромна количина на податоци, но сега откриен.

Решенијата за машинско учење и вештачка интелигенција може да се класифицираат во две категории: „надгледувано“ и „без надзор“ учење. Овие методи бараат сметки, клиенти, добавувачи и сл. Кои се однесуваат „невообичаено“ со цел да се изнесат резултати од сомневање, правила или визуелни аномалии, во зависност од методот.

Поврзано[уреди | уреди извор]

Наводи[уреди | уреди извор]

  1. Posted by Roman Chuprina on April 14, 2020 at 1:30am; Blog, View. „The In-depth 2020 Guide to E-commerce Fraud Detection“. www.datasciencecentral.com (англиски). Посетено на 2020-05-24.
  2. Velasco, Rafael B.; Carpanese, Igor; Interian, Ruben; Paulo Neto, Octávio C. G.; Ribeiro, Celso C. (2020-05-28). „A decision support system for fraud detection in public procurement“. International Transactions in Operational Research (англиски). 28: 27–47. doi:10.1111/itor.12811. ISSN 0969-6016.
  3. Vani, G. K. (February 2018). „How to detect data collection fraud using System properties approach“. Multilogic in Science. VII (SPECIAL ISSUE ICAAASTSD-2018). ISSN 2277-7601. Посетено на February 2, 2019.

Грешка во наводот: Ознаката <ref> со име „bolton_2002“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „bolton_2001“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „palshikar_2002“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „michalski_1998“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „phua_2005“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „green_1997“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „estevez_2006“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „fawcett_1997“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „cortes_2002“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „dal2014learned“ определена во <references> не се користи во претходен текст..
Грешка во наводот: Ознаката <ref> со име „English302gmu“ определена во <references> не се користи во претходен текст..

Грешка во наводот: Ознаката <ref> со име „:0“ определена во <references> не се користи во претходен текст..