Data mining: jiný pohled na problém

Michal Procházka  |  Věda
Foto: Shutterstock.com

Data mining – neboli dolování dat – je soubor metod sloužících ke zpracování dat a získání netriviálních informací, které jsou v nich obsažené.

Už jste o data miningu slyšeli, ale nevlastníte telekomunikační společnost nebo banku a tudíž to není nic pro vás? Nevadí, data mining není určen jen velkým firmám, protože se jedná o obecný soubor metod, kterými se dají zpracovávat různá data bez ohledu na obor a původ.

Zdá se vám to nejasné a málo pochopitelné? Vzpomeňte si Popelku a problém, se kterým jí pomáhali holuby. I ten se v jisté analogii a úhlu pohledu dá řešit data miningem. Popelka samozřejmě neměla počítač; tuto skutečnost nyní nebudeme brát v úvahu a budeme se dále zabývat problémem, který tvořilo oddělení hrachu a popela.

Chudák Popelka ve světě data miningu

Pokud bychom měli pomoci Popelce, postupovali bychom asi takto. Ze směsi by se vybralo několik prvků, které by tvořily učící data. Při převodu do počítače by byly jednotlivé prvky reprezentovány souborem parametrů a jejich hodnot.

Díky Popelčině znalosti problému bychom tento soubor rozšířili o parametr třída, kde bychom doplnili jedničku nebo nulu reprezentující „hrách“ nebo „popel“. Tento datový soubor bychom posléze zpracovali některým z dataminingových nástrojů. S jeho pomocí bychom vytvořili klasifikační model, po ověření ho nabídli Popelce, aby jej použila pro roztřízení zbytku směsi obou surovin.

Tento problém by byl samozřejmě jednodušeji řešitelný za použití mechanických nástrojů než jeho převáděním do počítače. Příklad zde byl použit pouze pro ilustraci, že na téměř jakýkoli problém lze řešit pomocí data miningu.

V šesti krocích: co je data mining?

Počátky tohoto oboru byly velmi různorodé, což vedlo ke vzniku a zavedení standardizovaného metodologického postupu. CRoss-Industry Standard Proces for Data Mining (CRISP-DM), jak už anglický název napovídá, je standardizovaný proces pro všechny obory – čili bez ohledu na obor, z něhož data pocházejí. Metodologie je vždy stejná a popisuje data mining v následujících šesti krocích. Jejich návaznost ukáže obrázek, jednotlivé kroky popíšeme.

Pochopení problému: bez porozumění požadavkům zákazníka a jasného stanovení cíle se neobejde žádný projekt. Stejně tak to platí i v data miningu. V této fázi dochází také k návrhu a tvorbě plánu pro řešení daného problému.

Porozumění datům je nezbytné pro další vývoj procesu. V této fázi také dochází vytváření prvních hypotéz, které se v průběhu celého procesu snažíme potvrdit. Někdy však můžeme hypotézu vyvrátit nebo naopak najít jiné řešení.

Příprava dat: zde dochází k integraci více datových zdrojů, čištění a úpravě dat do podoby, kterou vyžadují analytické nástroje a metody, které později budou na data aplikovány. Tento proces nelze správně provést bez znalosti dat. Špatná integrace dat by mohla vést ke znehodnocení zdrojů dat a ovlivnění celkové kvality řešení.

Modelování obsahuje testování vhodných metod a nastavení jejich parametrů pro řešení definovaného problému. Z tohoto kroku vybíráme několik nejlepších získaných řešení, které postupují do dalšího kroku.

Hodnocení: v této fázi dochází ke konečnému hodnocení a selekci získaných modelů podle různých vlastností a ověření správnosti získaných řešení za pomoci těchto modelů. Dle získaných výsledků je již možno zvážit případnou implementaci celého procesu.

Nasazení je posledním krokem v celém procesu. Je však nutné podotknout, že proces nekončí, ale začíná se cyklicky opakovat. Pokud se zákazník rozhodne výsledky data miningu implementovat do svých procesů, je nezbytné modely udržovat aktuální. Závislosti v datech se časem mění, a pokud by systém nebyl dostatečně robustní či pravidelně aktualizován, je velmi pravděpodobné, že by časem pozbyl kvality, tak i zcela své funkce. Proto je nutné pravidelně ověřovat funkci modelu novými daty a tím udržovat aktuálnost modelů.

Predikce a deskripce. Aby zákazník pochopil

Data mining můžeme rozdělit do dvou hlavních skupin, které tvoří predikce a deskripce.

Predikce je velmi dobře známý proces, protože se zabývá předpovídáním následujícího vývoje na základě získaných znalostí. Tyto metody se dají využít například pro předpověď počasí, vývoj ceny na burze a mnoho dalších.

Deskripce je brána jako samozřejmost. Pokud chcete někomu předat nějaké informace, musíte být schopni danou skutečnost popsat. Právě však s popisem nalezených skutečností jsou někdy problémy. Zákazníkovi přece nemůžete dát vzoreček nebo ukázat algoritmus a říct „takhle to funguje“.

Představte si problém, kdy na vstupu černé skříňky máte 64 hodnot a na výstupu jen jednu. Tato černá skříňka pro ilustraci zpracovává výsledky měření výsledků zákazníkovy výrobní linky a rozhoduje o kvalitě výrobku. Díky data miningu se vám podaří redukovat počet vstupů na sedm nezbytně nutných, které vám při zachování kvality stačí pro výpočet výstupních hodnot. Je to skvělé, podařila se optimalizace v řádu několika desítek procent.

Pokud získané informace nasadíte do systému zákazníka, dojde k minimalizaci počtu nutných měření, tím pádem se celý výrobní proces urychlí. Jste spokojeni se svou prací a zákazníkovi se jeho investice určitě vyplatila. Když se nad tím však zamyslíte, stojíte před dalším problémem. Jak budete zákazníkovi vysvětlovat závislost jeho výstupu čili kvality pouze na sedmi hodnotách, když on dodnes používal šedesát čtyři? A co teprve znázornění nově získaných informací a závislostí v datech? Jak jednoduše a názorně zobrazit závislost vstupů v sedmidimenzionálním prostoru? Můžete počítat s tím, že to zákazníka bude zajímat, a proto je třeba se problematikou dále zabývat a hledat správnou metodu vizualizace.

Využití, třeba v internetovém obchodě

Jak již naznačují první dvě slova anglického pojmenování metodického postupu Cross Industry, data mining nachází uplatnění napříč obory. Je platný všude, kde je dostatek kvalitních dat. Obecně zde platí víc než jinde pravidlo Garbage In Garbage Out (GIGO), čili smetí dovnitř smetí ven. Z nekvalitních zdrojů nikdy nedostaneme kvalitní informace.

Dříve byl data mining výsadou velkých telekomunikačních a bankovních společností. V dnešní době jsou již tyto metody dostupné jak pro střední, tak i menší podniky. Díky dostupnosti testovacích verzí některých softwarových nástrojů nebo volně dostupných nástrojů si tyto metody může vyzkoušet každý. Dostupnost nástrojů však v tomto případě nenahrazuje zkušené odborníky, kteří se touto problematikou dlouhodobě zabývají.

Nejčastěji se data mining využívá v marketingu pro segmentaci zákazníků, zvyšování efektivity reklamních kampaní, sledování rizika odchodu ke konkurenci nebo známé analýzy nákupního košíku. Tuto analýzu lze provádět jak u kamenných obchodů z jednotlivých účtenek, tak u elektronických obchodů z objednávek.

Elektronické obchody mají ještě výhodu možnosti sledování zákazníkem prohlížených produktů. Výsledky ukazují pravděpodobnost nákupu jednoho typu zboží spolu s jiným výrobkem. V kamenných obchodech jsou tyto analýzy využívány k umístění jednotlivých výrobků na prodejně, v elektronickém obchodě například pro doporučení typu „ostatní zákazníci si ke zvolenému výrobku také objednali“. S touto metodou souvisí také asociační pravidla popisující vztahy mezi jednotlivými výrobky.

Data mining = dolování dat

Segmentace zákazníků se zabývá rozdělením zákazníků do skupin, například dle demografických znaků nebo jejich chování na trhu. Bývá implementována zejména v nástrojích označovaných jako CRM Customer Relation Management, které jsou používány pro efektivní řízení vztahů se zákazníky. Tyto nástroje firmám umožňují zlepšit efektivitu marketingových kampaní a rozvíjet marketingové strategie.

Data mining se také často používá k optimalizaci výrobních procesů. Vědci ve zdravotnictví začali tyto metody používat k porovnávání sekvencí DNA. USA vyvinuly několik dataminingových robotů, kteří nepřetržitě procházejí internet a hledají informace o potencionálních možných teroristických útocích, banky je využívají k vyhledávání podvodů s kreditními kartami.

Podobnými příklady by se dalo pokračovat dále, protože data mining má mnoho dalších využití.

Pokud vás obor data miningu zaujal, podívejte se také na tyto stránky:

Nejčtenější