Податочно рударење

Податочно рударење (чекор во анализата за откривање на знаењето во податочни бази, кратко ОЗПБ англ. KDD; knowledge discovery in databases) е релативно млада интердисциплина во полето на компјутерските науки и претставува процес на откривање на шаблони (англ. patterns) во големи податочни множества со помош на методи кои спаѓаат во неколку други науки како вештачка интелигенција, машинско учење, статистика и системи за податочни бази.

Целта на податочното рударење е да се извлечат знаења од податочно множество во форма читлива за човекот со помош на активности како што се: управување со податоци и податочни бази, обработка на податоци, моделирање и заклучување, метрики за податоци од интерес, анализа на комплексност, пообработка на откриените структури, визуелизација и online надоградување на системи.

Употреба

Поимот е технички жаргон кој најчесто е погрешно употребуван со значење дека се работи за каква било форма на обработка на информации од големи податоци (собирање, извлекување, складирање, анализа и статистика), но исто така се прави и генерализација на каков било систем за компјутерски потпомогнато носење на одлуки вклучувајќи ги вештачката интелигенција, машинското учење и бизнис интелигенцијата. Вистинското значење на зборот е откривање, дефинирано како „откриj нешто што е ново”. Дури во некои книги зборот е злоупотребуван поради маркетиншките причини иако самиот контекст на книгите не е соодветен на податочното рударење. За ваквите примени посоодветен би бил зборот податочна анализа или аналитика, доколку се работи за конкретни методи може да се користи и името на самиот метод (на пример, машинско учење).

Процес

Податочното рударење е автоматски или полуавтоматски процес на анализа на голема количина на податоци со цел да се извлечат претходно непознати шаблони од интерес како што се: групи на податочни записи (анализа на кластери), невообичаени записи (детекција на аномалии) и зависности (рударење на асоцијативни закони). Овој процес на анализа најчесто вклучува техники како што се просторни индекси. Шаблоните може да бидат претставени во вид на извештаи за влезните податоци, и искористени во понатамошни анализи, или на пример во машинско учење и предикативна аналитика. На пример, може да бидат откриени неколку групи во податоците кои се анализираат. Потоа овие групи може да бидат искористени за попрецизни предвидувања од страна на систем за потпомогнато носење на одлуки. Во чекорот на податочно рударење не влегуваат чекорите на собирање на податоците, подготовка и претставување на резултатите од истите, но овие чекори се дополнителни во процесот на откривање на знаење од податочн

Континуирана иновација

Иако податочното рударење е релативно нов термин, технологијата не е. Компаниите користат моќни компјутери за да се разгледа обемот на скенираните податоци на супермаркетот и да се анализираат годишните извештаи за истражувањето на пазарот. Сепак, континуираните иновации во компјутерската моќ на обработка, дисковите за складирање и статистичкиот софтвер, драматично ја зголемуваат точноста на анализата додека истовремено се намалуваат трошоците.

Пример

На пример, еден среднозападен синџир го користи податочно рударскиот капацитет на софтверот Оракл (Oracle) за анализирање на локалните модели за купување. Тие откриле дека кога мажите купуваат пелени во четврток и сабота, тие исто така се склони да купат и пиво. Понатамошна анализа покажува дека овие купувачи обично го правеле нивниот неделен шопинг на намирници во сабота. Во четврток, купувале само по неколку предмети. Трговците на мало заклучиле дека тие купиле пиво за да имаат на располагање за претстојниот викенд. Синџирот може да ги користи овие новооткриени информации на различни начини за да ги зголеми своите приходи. На пример, тие може да го поместат пивото да стои поблиску до пелените. И, тие би можеле да бидат сигурни дека пивото и пелените ќе бидат продадени по полна цена во четврток.

Податоци, информации и знаење

Податоци

Податоци се сите факти, бројки, или текст кои може да се обработуваат од страна на компјутер. Денес, организациите се акумулираат брзо и расте количината на податоци во различни формати и различни бази на податоци. Ова вклучува: - оперативни или трансакциски податоци, како што се, продажба, цена, инвентар, плати и сметководство - неоперативни податоци, како што се индустриската продажба, податоци за прогноза и макроекономски податоци - метаподатоци - податоци за самите податоци, како што е дизајнот на логичките бази на податоци или податоци за дефиниции во речникот

Информации

Моделите, здружувањата или односите помеѓу сите овие податоци може да обезбедат информации. На пример, анализа на мала точка на продажба на трансакциски податоци може да доведе до информации за тоа кои производи се продаваат и кога.

Знаење

Информациите може да се претворат во знаење за историските модели и идните трендови. На пример, резимираните информации на супермаркетите на продажба на мало може да се анализираат во контекст на промотивни напори да се обезбеди знаење за однесувањето на потрошувачите за купување. Така, производителот или продавачот може да утврди кои предмети се најмногу подложни на промотивни напори.

Магацини за податоци

Драматичниот напредок во собирањето на податоци, моќта на обработката, преносот на податоци, и способноста за чување им овозможуваат на организациите да ги интегрираат своите различни бази на податоци во магацини за податоци. Магацинот за податоци е дефиниран како процес на централизирано управување со податоци и пребарување. Магацинот за податоци, како податочното рударење, е релативно нов термин, иако самиот концепт е околу со години. Магацинот за податоци претставува идеална визија за одржување на централно складиштето на сите организациони податоци. Магацинот за податоци чува големи количини на податоци по категории, па така може лесно да се извадат, толкуваат и сортираат од страна на корисниците. Централизацијата на податоците е потребна за да се зголеми корисничкиот пристап и анализата. Магацините им овозможуваат на директорите и менаџерите да работат со огромни продавници на трансакциски или други податоци за да одговорат побрзо на пазарот и да донесат повеќе информирани бизнис одлуки. Драматичните технолошки достигнувања ја прават оваа визија реалност за многу компании. И, еднакво драматичниот напредок во софтверот за анализа на податоци им овозможува на корисниците слободен пристап до овие податоци. Софтверот за анализа на податоци е она што го поддржува податочното рударење.

Што може да прави податочното рударење?

Податочното рударење првенствено се користи денес од страна на компаниите со силен потрошувачки фокус – трговија на мало, финансиски, комуникациски и маркетинг организации. Тоа им овозможува на овие компании за утврдување на врските меѓу "внатрешните" фактори како што е цената, позиционирањето на производот, или вештините на персоналот, и "надворешните" фактори како што се економските показатели, конкуренцијата, и демографијата на клиентите. И, тоа им овозможува да се утврди влијанието на продажбата, задоволството на клиентите, како и корпоративните профити. Конечно, тоа им овозможува да ги "разбијат" во краток преглед информациите за да ги видат деталните трансакциски податоци. Со податочното рударење, трговците на мало може да ги користат податоците од точката на продажба на клиентот кој купува за да се испратат насочени промоции врз основа на историјата на купување на поединецот. Со рударските демографски податоци од коментарите или картичките за гаранција, трговците на мало може да развијат производи и промоции за да се жалат на специфичните сегменти на корисниците. На пример, American Express може да сугерира производи на своите поседувачи на картички врз основа на анализата на нивните месечни трошоци. Валмарт (WalMart) е прв кој масивно го користи податочното рударење за да ги трансформира односите со снабдувачите. Валмарт доловува точка-на-продажба трансакции од над 2900 продавници во 6 земји и континуирано ги пренесува овие податоци до својот масивен 7,5 терабајтен магацин за податоци. Валмарт им овозможува на повеќе од 3.500 добавувачи, пристап до податоци за нивните производи и вршење на анализа на податоците. Добавувачите ги користат овие податоци за да ги идентификуваат моделите за купување на клиентите на ниво на продавница. Тие ги користат овие информации за да управуваат со инвентарот на локалните продавници и за идентификување на нови трговски можности. Во 1995 година, Валмарт компјутерите обработиле над 1 милион комплексни податочни прашања.

Како работи податочното рударење?

Додека големaта информатичка технологија развивала посебна трансакција и аналитички системи, податочното рударење ја обезбедува врската помеѓу двете. Софтверот за податчно рударење ги анализира односите и шемите на зачуваните трансакциски податоци засновани на отворени кориснички пребарувања. Неколку видови на аналитички софтвер се достапни: статистички, машинско учење, и невронски мрежи. Општо земено, секој од четири видови на односи бара: • Класи: Складираните податоци се користат за лоцирање на податоците во однапред одредени групи. На пример, еден синџир на ресторани би можел според податоците за купување на своите клиент да утврди кога клиентите го посетуваат и што тие обично нарачуваат. Оваа информација може да се користи за да се зголеми гужвата со имање на секојдневни промоции. • Кластери: Податочните предмети се групирани според логичките врски или преференциите на потрошувачот. На пр., податоците можат да се користат за да се идентификуваат сегменти од пазарот или афинитетите на потрошувачите. • Здруженија: Податоците можат да се користат за да се идентификуваат асоцијации. Примерот со пивото и пелените е пример на асоцијативното рударење. • Секвенцијални модели: податоците се користат за да се предвиди однесувањето на шемите и трендовите. На пример, надворешната опрема на трговците на мало може да ја предвиди веројатноста за појава на ранец кој е купен врз основа на купување на потрошувачите на вреќи за спиење и планинарски чевли. Податочното рударење се состои од пет основни елементи: • Вадење, трансформирање, и вчитување на трансакциски податоци кон системите на магацини за податоци. • Чување и управување со податоци во повеќедимензионален систем на бази на податоци. • Обезбедува пристап до податоци на бизнис аналитичарите и професионалците во информатичката технологија. • Анализира податоци со помош на апликативен софтвер. • Презентира податоци во корисен формат, како на пример графикон или табела.

Технологии на податочното рударење

Аналитичките техники кои се користат во податочното рударење се често добро познати математички алгоритми и техники. Она што е ново е примената на овие техники за општите деловни проблеми овозможено од страна на зголемувањето на достапноста на податоците и евтиното складирање и моќ за преработка. Исто така, употребата на графички интерфејси довела до тоа алатките да станат достапни и така бизнис експертите лесно ќе ги користат. Некои од алатките кои се користат за податочното рударење се: • Вештачки невронски мрежи: Не-линеарни предвидливи модели кои учат преку обука и личат на биолошките нервни мрежи во структурата. • Генетски алгоритми: техники за оптимизација кои ги користат процесите како што се генетските комбинации, мутација и природна селекција во дизајн заснован на концептите на природната еволуција. • Дрва на одлучување: структури во облик на дрво кои претставуваат групи на одлуки. Овие одлуки генерираат правила за класификација на базата. Специфичните методи на дрва на одлучување вклучуваат Classification and Regression Trees (CART) и Chi Square Automatic Interaction Detection (CHAID). CART и CHAID се техники на дрвата на одлучување кои се користат за класификација на базата. Тие обезбедуваат збир на правила кои може да се применуваат на нови (некласифицирани) бази за да се предвиди кои записи ќе го имаат дадениот исход. CART обично бара помалку подготовка на податоци од CHAID. • Метод на најблизок сосед: техника која го класифицира секој запис во базата заснован на комбинацијата од класите со k запис(и) најмногу сличен на него во еден историска база (каде k=1). Понекогаш се нарекува к-најблиската сосед техника. • Правило на индукција: Екстракција на корисните ако-тогаш правила од податоците засновани на статистичка значајност. • Визуелизација на податоци: Визуелната интерпретација на комплексните односи во повеќедимензионалните податоци. Графичките алатки се користат за да се илустрираат податочните односи.

Каква технолошка инфраструктура е потребна?

Денес, апликациите за податочно рударење се достапни на сите големини на системи за супер, клиент / опслужувач, и PC платформи. Цените на системот се движат од неколку илјади долари за најмалите апликации до $1 милиони за најголемите. Претпријатие-широките апликации обично се со големина од 10 гигабајти до над 11 терабајти. NCR има капацитет да овозможи апликации кои надминуваат 100 терабајти. Постојат два критични технолошки драјвери: • Големината на базата: колку повеќе податоци се обработени и се одржуваат, толку помоќен систем е потребен. • Комплексноста на пребарувањето: колку повеќе комплексно е пребарувањето и колку поголем бројот на пребарувања се обработуваат, помоќен систем е потребен. Релационата база на податоци за чување и управување со технологија е соодветна за многу апликации на податочното рударење помали од 50 гигабајти. Сепак, оваа инфраструктура треба да биде значително подобрена за поддршка на поголеми апликации. Некои продавачи додале големи способности за индексирање за да се подобри ефикасноста на барањето. Други користат нови хардверски архитектури како што е Massively Parallel Processors (MPP) за да постигнат цел-на-големина подобрувања во времето на барање. На пример, MPP системи од NCR поврзуваат стотици големобрзински Pentium обработувачи за да се постигне ефикасноста на нивоата кои ги надминуваат оние од најголемите суперкомпјутери.

Податочно рударење: Прашања

Едно од клучните прашања покренато од страна на технологијата на податочното рударење не е бизнисот или технологијата, туку општеството. Тоа е прашање на приватноста на поединецот. Податочното рударење го прави возможно анализирањето на рутинските бизнис трансакции и собирањето на значителна количина на информации за поединците и за нивните навики за купување и преференци. Друг проблем е интегритетот на податоците. Анализата на податоците може да биде добра како и податоците кои се анализираат. Клучен предизвик на имплементација е интегрирањето на конфликтни или редундантни податоци од различни извори. На пример, банката може да одржува профили на кредитни картички на неколку различни бази на податоци. Адресите (или дури и имињата) на еден поседник на картичка може да бидат различни во секоја од нив. Софтверот мора да преведува податоци од еден систем на друг и да избере адреса од повеќето кои неодамна влегле. Жестоко се дебатирало за техничкото прашање дали е подобро да се постави структура на релациона база на податоци или повеќедимензионална. Во релационата структура, податоците се складирани во табели, овозможувајќи повремени пребарувања. Во повеќедимензионалната структура, од друга страна, множества на коцки се наредени во низи, со подмножества создадени според категоријата. Додека повеќедимензионалните структури го овозможуваат повеќедимензионалното податочно рударење, релационите структури досега се покажале како подобри за работа во клиент / опслужувач средини. И, со експлозијата на интернет, светот станува една голема клиент / опслужувач средина. Конечно, тука е и прашањето за цената. Додека системот за хардверски трошоци се намалува драстично во последните пет години, податочното рударење и складирање на податоци има тенденција да биде во само-зајакнување. Колку помоќни се пребарувањата на податочното рударење, толку е поголема користа од информациите собрани од податоците, и поголем е притисокот за зголемување на износот на податоци кои се собираат и одржуваат, со што се зголемува притисокот за побрзо, помоќно пребарувања на податочното рударење. Ова го зголемува притисокот за поголеми, побрзи системи, кои се и поскапи.

Иднината на податочното рударење

На краток рок, резултатите од податочното рударење ќе бидат профитабилни. Микро-маркетинг кампањите ќе истражуваат нови нишки. Рекламирањето ќе наведе потенцијални клиенти со нови прецизности. На среден рок, податочното рударење може да биде заеднички и лесен за користење како е-пошта. Ќе може да се користат овие алатки за да се најдат најдобрите авионски карти до Њујорк, да се пронајде телефонски број на одамна загубен соученик, или да се најдат најдобрите цени на косилки. На долг рок перспективите се навистина возбудливи. Замислете си интелигентни агенти кои ќе се изгубат во медицински истражувања на податоци или во податоците за суб-атомски честички. Компјутерите може да откријат нови третмани за болести или за нови сознанија во природата на универзумот. Постојат потенцијални опасности, тоа е дискутирано подолу.

Загриженост околу приватноста

Што ако секој телефонски повик кој го правите, секое купување со кредитна картичка кое го правите, секој лет кој го земате, секоја посета на лекар која ја правите, секоја картичка за гаранција која ќе ја испратите, секој апликацијата за вработување која ќе ја пополните, секој запис во училиштето кој го имате, вашиот кредитен запис, секое мрежно место што ќе ја посетите ... се сите собрани заедно? Многу ќе се знае за вас! Ова е премногу реална можност. Голем дел од овој вид на информации веќе се чуваат во база на податоци. Дали се сеќавате на вашето телефонско интервју што го дадовте за една маркетинг компанија минатата недела? Вашите одговори отидоа во базата на податоци. Се сеќавате на апликацијата за заем која ја пополнивте? Во базата на податоци е. Премногу информации за премногу луѓе, дали за никого има смисла? Не со алатки за податочно рударење кои работат на масивни, паралелни компјутери! Дали вие ќе се чувствувате удобно во врска со некого (или со некои) кои имаат пристап до сите овие податоци за вас? И запомнете, сите овие податоци не треба да престојуваат на една физичка локација; како што расте нетот, информациите од овој тип стануваат повеќе достапни за повеќе луѓе.

Надворешни врски

Knowledge Discovery Software на Curlie (англиски)

Data Mining Tool Vendors на Curlie (англиски)