Податочно рударење

Од Википедија — слободната енциклопедија
Прејди на: содржини, барај

Податочно рударење (чекорот на анализа во откривање на знаењето од податочна база, кратко ОЗПД анг. KDD; Knowledge discovery in databases) е релативно млада интердисциплина во полето на компјутерските науки и представува процес на откривање на шаблони (анг. patterns) во големи податочни множества со помош на методи кои спаѓаат во неколку други науки како вештачка интелигенција, машинско учење, статистика и системи за податочни бази. Целта на податочното рударење е да се извлечат знаења од податочно множество во форма читлива за човекот со помош на активности како што се: менаџирање на податоци и податочни бази, процесирање на податоци, моделирање и заклучување, метрики за интересни податоци, анализа на комплексност, пост-процесирање на изнајдените структури, визуелизација и online надоградување на системи.

Поимот е технички жаргон кој најчесто е злоупотребен со значењето дека се работи за било каква форма на процесирање на информации од големи податоци (собирање, извлекување, складирање, анализа и статистика), но исто така се прави и генерализација на било каков систем за компјутерски подпомогнато носење на одлуки вкличувајќи ги вештачката интелигенција, машинското учење и бизнис интелигенцијата. Правото значење на зборот е откривање, дефинирано како “открj нешто што е ново”. Дури во некои книги зборот е злоупотребуван поради маркетинг причини иако самиот контекст на книгите не е соодветен на податочното рударење. За ваквите примени посоодветен би бил зборот податочна анализа или пак аналитика, доколку се работи за конкретни методи може да се користи и името на самиот метод, на пр. машинско учење.

Податочното рударење е автоматски или полу-автоматски процес на анализа на голема количина на податоци со цел да се извлечат претходно непознати интересни шаблони како што се: групи на податочни записи (анализа на кластери), невообичаени записи (детекција на аномалии) и зависности (рударење на асоцијативни закони). Овој процес на анализа најчесто вклучува техники како што се просторни индекси. Шаблоните може да бидат представени во вид на извештаи за влезните податоци, и искористени во понатамошни анализи или на пример во машинско учење и предикативна аналитика. На пр. може да бидат одкриени неколку групи во податоците кои се анализираат, овие групи може да бидат искористени за попрецизни предвидувања од страна на систем за потпомогнато носење на одлуки. Во чекорот на податочно рударење не влегуваат чекорите на собирање на податоците, подготовка и представување на резултатите на истите, но овие чекори се дополнителни во процесот на откривање на знаење од податочна база.