Vizualizace dat: Jak odhalit utajené souvislosti

Michal Černý  |  Technika

Pohrávat si s grafy v Excelu je zábava, která může vydržet na mnoho hodin. V programu lze volit různé typy zobrazení, přiřazovat barvy nebo vytvářet prostorové grafy. V současnosti však existuje obor, který by mohl vytváření grafů klasickým způsobem odsunout na vedlejší kolej.

Na začátku 21. století se na lidstvo valí datové tsunami. Výzkumníci z analytické společnosti IDC spočítali, že celosvětový objem dat se každé dva roky zdvojnásobí. V roce 2011 odpovídal prostoru kolem dvou set miliard DVD. To, z čeho mají systémoví administrátoři těžkou hlavu, vidí londýnský vědec David McCandless jako novou příležitost. „Data jsou jako nová ropa,“ říká, a považuje se za jednoho z průkopníků v hledání virtuálních pokladů.

Jeho kniha Information is beautiful je naplněná infografikami, které běžného uživatele Excelu či PowerPointu ohromí. Namísto sloupců a koláčových grafů ukazuje McCandless pestrobarevné kruhy různých velikostí, obláčky pojmů, nebo pruhy, které mění svoji barvu. Je tak možné na první pohled rozpoznat třeba barevně odlišené módní trendy, nebo třeba to, které metody alternativní medicíny jsou populární, a které třeba pochybné.

Nejde však jenom o vytváření krásné a vizuálně působivé grafiky. Jeho práce je využitelná v nových trendech v hospodářství, ve výzkumu nebo v médiích. Kdo dokáže data rychle analyzovat, může rychleji rozpoznat dříve netušené souvislosti. Jak věří mnozí informatici, s pomocí nového oboru „Visual Analytics“ lidé lépe zvládnou informační záplavu 21. století.

Graficky znázorněná analýza tweetů na téma hurikánu Sandy. Zdroj: Visual Analytics.org
Graficky znázorněná analýza tweetů na téma hurikánu Sandy. Zdroj: Visual Analytics.org
Graficky znázorněná analýza tweetů na téma hurikánu Sandy. Zdroj: Visual Analytics.org
Graficky znázorněná analýza tweetů na téma hurikánu Sandy. Zdroj: Visual Analytics.org

Průzkum hollywoodských filmů

David McCandless zkoumal využití vizualizací například při odhalování souvislostí ve filmové branži. Nejprve vytvořil tabulku v Excelu s finančními daty o nových filmech. Ke každému snímku náležela celá datová sada – údaje o žánru, studiu, obratu, zisku, výsledku uvedení o prvním víkendu a ohodnocení kritiků.

Samozřejmě, že není žádný problém tato data třídit v tabulce v Excelu podle určitých kritérií, například podle zisku z filmu. Komplexnější souvislosti – například mezi žánry, rozpočtem a ohodnocením kritiků – jsou ale při posouvání stovkami řádků stěží rozpoznatelné. Proto nastupuje mnohem náročnější grafická vizualizace.

Hollywood Data Explorer: rozpočet filmů proti jejich zisku nebo ztrátě
Hollywood Data Explorer: rozpočet filmů proti jejich zisku nebo ztrátě

Interaktivní grafiku tohoto druhu navrhl Kanaďan James Fisher, v podobě nástroje Hollywood Data Explorer, který je dostupný na webu. Uživatel si může zvolit, které vlastnosti budou dány do souvislosti. Pomocí několika kliknutí je možné data nově aranžovat a odhalit při tom zajímavé vztahy – například, že komerčně nejúspěšnější filmy mají ve srovnání relativně malý rozpočet.

Vizualizaci dat je možné dobře využít také proto, že lidská psychika dokáže vytěžit mnohem více informací z vnímaných tvarů nebo barev než při čtení textu nebo při přelétnutí tabulky. A když je navíc grafika interaktivní, může uživatel lépe vystopovat nové souvislosti.

Tip: Podívejte se, jak lze interaktivně zpracovat 512 variant výsledků amerických prezidentských voleb u nerozhodných států.

Firma v nebezpečné zóně

Výzkumníci z německého Fraunhoferova institutu například vyvinuli grafickou aplikaci pro banky. Mnoho zákazníků těchto bank je obchodně propojeno, přitom tyto vztahy nejsou při plánování rizika zcela zohledněny. Určitý podnik může být ve službách firem, které pracují jako dodavatelé pro velké strojařské společnosti. Když se celá strojařská branže dostane do potíží, hrozí i malým podnikatelům ekonomické problémy.

Tým kolem Jörna Kohlhammera z Institutu pro zpracování grafických dat (IGD) v Darmstadtu navrhl síť, která obchodní vztahy zákazníků bank zobrazí pomocí spojovacích linií. Každý uzel v síti představuje jeden podnik a podle finanční situace je mu přiřazena barva: zelená pro úspěšné zákazníky, červená pro ty s finančními problémy.

„Je tak možné rychle rozpoznat, jestli se zákazník nachází v problematickém okolí,“ vysvětlil Kohlhammer pro časopis Technology Review. Finanční poradce se může podívat na vztahové okolí zákazníka a potom se rozhodnout: měl by klient finanční potíže, kdyby firmy v jeho okolí zkrachovaly? To může poukazovat na možné obtíže a stejně tak na šance pro budoucí obchod.

Tato infografika z webu XKCD efektně porovnává peníze, ceny, rozpočty. Představu o rozdílech získáte mnohem lépe grafickým znázorněním než pouhým výčtem čísel.
Tato infografika z webu XKCD efektně porovnává peníze, ceny, rozpočty. Představu o rozdílech získáte mnohem lépe grafickým znázorněním než pouhým výčtem čísel. Obrázek je ale tak velký, že potřebuje samostatný prohlížeč s možností zvětšování. Podobně má XKCD zpracované úrovně radiace.

Podobné analýzy používají i firmy jako Hewlett-Packard k tomu, aby mohly zpracovat zpětnou vazbu od svých zákazníků. Počet komentářů k produktům je tak velký, že není možné je všechny číst jednotlivě. Proto jsou texty s ohledem na jejich emoční zabarvení analyzovány a roztříděny. Pro komentáře svých zákazníků vyvinula firma HP vizualizaci, která na první pohled ukáže, kde zákazníci vidí silné a slabé stránky různých modelů tiskáren. V jiném případě by to byla nepřehledná tabulka s dvaceti různými kritérii, takto je možné jí snadno porozumět díky barevnému zobrazení.

Podobnou „pocitovou analýzu“ (Sentiment Analysis) je možné použít třeba při rozboru zpráv na Twitteru. Jsou-li časté třeba negativní komentáře k nějakému filmu, je možné je podle určitých pojmů filtrovat a seskupovat. V některých případech lze odhalit, kdo je původcem záporného hodnocení, od něhož se ostatní trochu inspirovali.

Zatím chybí standardizace

Navzdory těmto působivým řešením není skutečná potřeba oboru Visual Analytics zatím není příliš velká, například v komplikovaných výzkumných oborech. Je tomu tak proto, že téměř pro každou aplikaci je potřeba nalézt vlastní řešení, protože zatím není vyvinutý standard. Na trhu se sice prodávají různé softwarové balíky, které však jsou zaměřené převážně na určitý typ dat, například programy americké firmy Tableau Software pro obchodní čísla. Pokud by se podařilo časem vyvinout standardní formát, mohlo by se jednat o přínos například pro obor virtuální reality.

Metoda kombinuje silné stránky počítačů s lidmi – na jedné straně se nachází výpočetní síla, na druhé straně intuice pro to, kde se vyskytují zajímavé detaily. Uživatel tak může zjistit, co se v datech skrývá, aniž předem tuší, co vlastně hledá.

Další zajímavé informace:

Nejčtenější