Bezpečnost

Proč potřebujete analýzu dat? Kroky v procesu dolování dat

Proč potřebujete analýzu dat?  Kroky v procesu dolování dat

V současné době jsou informační analytické systémy široce používány v ekonomice a podnikání jako nástroje, které poskytují podporu rozhodování. Stupeň a úroveň využití roste inteligentní technologie, neboť v databázích organizace se hromadí obrovské množství dat, které lze díky využití těchto technologií využít k získání důležitých a aktuálních informací.

Abychom zhodnotili roli a místo informačních analytických systémů v podniku, uvažujme obecná klasifikace informační systémy z pohledu jejich aplikace na jednotlivých úrovních řízení.

Na nižší úrovni (úroveň operativního řízení) jsou informační systémy zaměřené na operativní zpracování dat (obchodních, finančních, personálních atd.) v reálném čase (OLTP, on-line transakční zpracování- systémy operativní zpracování data). Na vyšší úroveň(úroveň strategického řízení) existují informační systémy, které podporují činnost vrcholových manažerů při rozhodování v podmínkách polostrukturovaných a nestrukturovaných dat.

Informační systémy na různých úrovních řízení spolu úzce spolupracují. Zároveň jsou na každé úrovni řízení podporována řešení konkrétních funkčních úkolů v souladu s obchodními procesy podniku nebo organizace, což zajišťuje vertikální integraci informačních toků. Příklady úloh jsou uvedeny v tabulce. 3.6.

Tabulka 3.6. Úkoly funkčních subsystémů na různých úrovních řízení

úrovně

manažer

leniya

Úkoly funkčních subsystémů

Marketing a prodej

Výroba

Zásobování

Finance

Taktický

Analýza a plánování objemů prodeje. Ceny

Analýza a plánování výrobních programů

Analýza a plánování objemů nákupů

Analýza a plánování peněžních toků. Kontrola rozpočtu

Provozní

Účetnictví objednávky. Vystavování faktur a faktur

Zpracování výrobních zakázek

Provoz skladu. Nákupní objednávky

Účetnictví a mzdy

Je zřejmé, že výše uvedená kategorizace systémů podle úrovní řízení je modelovou reprezentací, v skutečné systémy funkce a úrovně jsou integrovány v různé míře.

Systémy pro podporu rozhodování(SPPR) - interaktivní systémy, který se používá v managementu jako pomoc při rozhodování v částečně a špatně strukturovaných úkolech. Oproti manažerským mají vyvinutý analytický aparát informační systémy, a také obsahovat nějakou sadu matematické modely. Aby DSS reagovaly na vnější měnící se podmínky, využívají jako vstup informace z kancelářských, profesních a transakčních systémů a systémů řízení a musí také přijímat informace z externích zdrojů.

Je zřejmé, že DSS lze využít jak na strategické, tak na taktické úrovni řízení. Tyto systémy podporují rozhodování managementu integrací dat, analytických modelů a uživatelsky přívětivého softwaru do systému, jehož hlavním účelem je poskytnout uživateli nástroj pro analýzu dat a vytváření modelů, které slouží jako základ pro rozhodování.

DSS poskytují uživatelům výpočetní a komunikační nástroje a schopnost odpovídat na otázky jako: „Jaký je stav podnikání?“ nebo "Jaké akce mohou chránit společnost nebo organizaci před změnami tržních podmínek?" a tak dále.

Charakteristika systémů pro podporu rozhodování:

  • poskytovat řešení problémů, jejichž vývoj je obtížné předvídat;
  • vybavené sofistikovanými nástroji pro modelování a analýzu;
  • umožňují snadno měnit formulaci řešených úkolů a vstupní data;
  • jsou flexibilní a snadno se přizpůsobují měnícím se podmínkám;
  • mít technologii, která je co nejvíce orientovaná na uživatele.

DSS lze rozdělit na dvě hlavní části: úložiště dat A analytické nástroje zpracování dat, který zahrnuje komponenty reporting, nástroje OLAP A nástroje pro dolování dat- rýže. 3,45.

Reportingové nástroje poskytují generování konsolidovaného podnikového výkaznictví: generování všech typů regulovaného výkaznictví, plánování generování výkazů, doručování výkazů koneční uživatelé, vytváření ad-hoc reportů „za běhu“.

OLAP systémy ( on-line analytické zpracování) představují nástroj pro analýzu velké objemy data v reálném čase. Díky interakci se systémem OLAP může uživatel provádět flexibilní prohlížení informací, získávat libovolné datové řezy a provádět analytické operace procházení, konvoluce a porovnávání v průběhu času. Pokud vám regulované systémy výkaznictví umožňují odpovědět na otázku: „K čemu je zisk podniku minulý měsíc?“, pak systémy OLAP poskytují odpověď na otázku: „Kterého dodavatele je pro mě nejlepší vybrat a proč?“

Rýže. 3,45.

Intelektuální analýza dat, nebo extrakce dat (dolování dat), umožňuje hlubší průzkum dat. Následující kapitoly učebnice jsou věnovány úlohám a metodám data miningu.

Postupy manipulace s daty v DSS by měly poskytovat následující možnosti:

  • - sestavování kombinací dat získaných z různých zdrojů;
  • - rychlé přidání nebo vyloučení jednoho nebo druhého zdroje dat a jeho automatické přepínání při vyhledávání dat;
  • - správa dat pomocí DBMS;
  • - logická nezávislost dat tohoto typu na jiných databázích zahrnutých v subsystému informační podpory;
  • - automatické sledování toku informací k naplnění databází.

Praktická implementace DSS je založena na využití OLAP technologií a organizace datové sklady(HD, Datové sklady).

Otázky z praxe. Podívejme se na výsledky implementace informačního a analytického systému. DeltaCredit Bank se stala první komerční bankou v Rusku specializující se na hypoteční úvěry. Jedna z nejdůležitějších součástí každé práce úvěrová organizace je udržení kvality úvěrového portfolia. Hypoteční úvěry jsou vydávány na dlouhou dobu a nesou se velký počet rizika pro banku. Hlavní fází při zvažování žádosti o hypoteční úvěr je proto důkladná kontrola dlužníka a zajištění splnění požadavků banky. V roce 2007 začala spolupráce mezi DeltaCredit a BaseGroup Labs. Analytická platforma Deductor byla implementována jako systém podpory rozhodování pro analytiky. Byl proveden vícefaktorový screening dlužníků podle pravidel Směrnice pro upisování hypotečních úvěrů. V průběhu let se Deductor etabloval jako spolehlivý asistent analytiků, který snižuje riziko ztráty důležitá informace. V v současné době Při zvažování jakékoli aplikace se kontroluje více než sto různých pravidel a požadavků. Úspěšné fungování analytické platformy vedlo k myšlence použít Deductor jako další ověřovací odkaz – proti interním databázím banky. Obecně se BaseGroup Labs etablovala jako spolehlivý partner a profesionál ve svém oboru a Deductor jím je pohodlný nástroj, ke kterému se v blízké budoucnosti upínají ještě větší naděje - analýza odpovědí Credit History Bureau, analýza informací z vnější základny data, behaviorální analýza, použití jako platforma pro kreditní skóring. Toto je revize systému vedoucím úvěrového oddělení CJSC CB DeltaCredit D. Kovalevem ( zdroj: Zákaznické recenze // BaseGroup Labs: [webová stránka]. URL: http://www. basegroup.ru).

Úvod

Toto číslo je druhým v řadě čísel, která nastiňují kurz „Matematické modelování geologických objektů“, doplněný vzdělávacími a metodickými doporučeními, kontrolní otázky a komentáře. Toto číslo se zaměřuje na analýzu dat jako samostatnou vědní disciplínu a v jejím spojení s aplikovanou statistikou. Samozřejmě není prezentována „celá“ analýza dat, ale pouze její jednotlivé fragmenty nezbytné pro pochopení kurzu jako celku. Poskytováno minimálně nezbytné informace o aplikovaných statistikách.

Matematické modelování geologických objektů úzce souvisí s analýzou dat jako samostatná vědní disciplína a aplikovanou statistikou.

Jak probíhá analýza dat matematické modelování a aplikovaná statistika se společně používají při řešení konkrétních geologických problémů a zejména při vytváření modelů geologických objektů? Typicky je tvorba modelu geologického objektu rozdělena do řady dílčích úkolů, které tvoří jeden vývojový diagram se sekvenčním a paralelním pohybem zpracovávaných informací od počátečních postupů až po konečný výsledek - syntézu modelu.

Řešení každého z těchto dílčích úkolů spočívá buď v konstrukci a analýze konkrétního modelu, nebo v hledání stochastického vztahu mezi určitými parametry, nebo v řešení jednoho či druhého typického problému analýzy dat atd. V druhém případě je vybrán algoritmus, který splňuje požadavky kladené zdrojovými informacemi. Tyto požadavky mohou být buď čistě formální povahy (například přítomnost různých typů prvků v tabulce znemožňuje použití některých algoritmů), nebo mohou představovat „obtížné“ formalizovat představy o systému studovaných objektů, které by měly také nelze zanedbávat.

V současné době neexistuje žádná univerzální formální matematická metoda pro výběr vhodného algoritmu. Proto se při výběru algoritmu spolu s kontrolou jeho formální matematické vhodnosti doporučuje zaměřit se na jeho relativní jednoduchost a smysluplnou interpretovatelnost matematického aparátu použitého v konkrétním problému, zkušenosti s používáním algoritmu při řešení podobné úkoly.

Rozpoznávání vzorů

Hlavní dílčí úkoly

Hlavní dílčí úkoly úlohy rozpoznávání jsou:

1 ) vytvoření počátečního seznamu charakteristik;

2 ) výběr tříd objektů;

3 ) příprava tréninkového stolu (stolů);

4 ) výběr skupiny rozhodovacích pravidel;

5 ) hledat optimální (vzhledem k nějakému kritériu či kritériím) rozhodovací pravidlo v této rodině;

6 ) příprava popisů vzorků;

7 ) rozpoznávání vzorků.

Po etapách 1 -3 se provádí výběr a vysvětlení znaky (viz manuál od Krasavchikov, 2008) a sestavení databáze.

Při vytváření počátečního seznamu charakteristik lze implementovat dva přístupy:

A) komplexní popis objektů, typický pro situace, kdy badatel neví, z jakých znaků má sestavit výsledný seznam (informativní systém znaků), podle kterého budou vzorky rozpoznány. Proto vybírá takové vlastnosti, v zásadě mohou obsahovat užitečné informace(i když na první pohled jejich souvislost s řešeným problémem nemusí být zřejmé) a spoléhá na algoritmus a program, který jej implementuje, aby vybral informativní systém funkcí.

B) popis objektů na základě nějakého geologického modelu, pro který je seznam vlastností předem znám.

Při výběru tříd objektů vycházejí nejen z zadání problému (např. na základě výsledků interpretace seismických dat roztřídit lokální zdvihy na slibné a neperspektivní), ale vycházejí také z geologického cítění a zkušeností. při řešení podobných problémů. Může být nutné provést rozkladúlohy a provést krok za krokem řešení v rámci sérioparalelního blokového diagramu několika problémů rozpoznávání.

Při přípravě trénovacích tabulek by se mělo pokud možno vyvarovat výskytu charakteristických rysů měřených ve jmenné stupnici (nominální) s počtem přijímaných hodnot větším než dvě, protože ostře omezují volbu rozpoznávacího algoritmu. . Mohou obsahovat velmi významné informace, ale je lepší, aby nebyly zahrnuty do seznamu charakteristických znaků. Obvykle jsou třídy tvořeny na základě hodnot těchto charakteristik.

Výběr skupiny rozhodovacích pravidel není formálním postupem. Nicméně s touto volbou existuje také formální požadavky. Pokud jsou například mezi charakteristikami nominální nebo klasifikační, můžete použít pouze ty algoritmy, které jsou schopny pracovat s informacemi prezentovanými v kvalitativních měřítcích.

Jedním z hlavních kritérií pro výběr rozhodovacího pravidla je jeho „jednoduchost“. Praxe ukázala, že by měla být dána přednost jednodušším pravidlům rozhodování. Pokud patří mezi „jednoduchá“ rozhodovací pravidla (navíc výzkumníkovi dostupná v implementace softwaru) není možné najít někoho schopného se s úkolem vyrovnat (nebo v případě ( A), radikálně zmenšit rozměr popisu), pak přejít na složitější atd.

Formalizace konceptu jednoduchosti není tak snadná! V matematická logika a teorie algoritmů je celý směr spojen s formalizací a studiem jednoduchosti matematických struktur, ale obeznámenost s tímto tématem není součástí cílů kurzu. Proto budeme tento problém považovat za intuitivně jasný. Jako příklad nejjednodušších rozhodovacích pravidel mohou zřejmě posloužit lineární (viz níže). Pokud existují dvě lineární rozhodovací pravidla, pak to jednodušší je zjevně to, které používá méně funkcí.

Když ( A) při výběru rodiny rozhodovacích pravidel je třeba věnovat pozornost Speciální pozornost na schopnosti radikálně redukovat rozměr popisu.

Po výběru rodiny se provede vyhledávání rozhodující funkce a odpovídající pravidlo, které v této rodině mají « nejlepší kvalita» ve vztahu k výcvikovému a zkušebnímu materiálu.

Pro posouzení kvality rozhodovacího pravidla se používají funkcionály jako níže:

Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 + p 3 M 3 + p 4 M 4,

kde na školení a zkušební materiály

M 1 – počet chybně rozpoznaných předmětů I. třídy;

M 2 – počet chybně rozpoznaných předmětů druhé třídy;

M 3 – počet poruch pro objekty první třídy;

M 4 – počet poruch pro objekty druhé třídy.

Koeficienty p j , j=1,...,4 jsou „penalizace“ za chybu odpovídajícího typu. Čím menší je hodnota Δ(F,λ,ε) (s pevnými seznamy předmětů učení a zkoušek), tím vyšší je kvalita rozhodovacího pravidla.

Po výpočtu hodnot rozhodovací funkce pro všechny tréninkové a zkušební objekty lze optimálně zvolit řídicí parametry algoritmu λ, ε, tzn. aby kvalitativní funkcionalita rozhodovacího pravidla dosáhla minima:

Δ(F,λ * ,ε *)=min Δ(F,λ,ε),

kde minimum je převzato ze všech λ, ε a ε>0.

Když ( A) Dalším (a neméně důležitým) kritériem kvality je prudké snížení počtu prvků používaných při rozpoznávání ve srovnání s původním seznamem. To je proto, že

Malý počet funkcí snižuje vliv „informačního šumu“, díky čemuž je rozpoznávání spolehlivější;

Čas potřebný k přípravě vzorových popisů je zkrácen. Při rozpoznávání v uzlech mřížky se tedy snižuje počet map, které je třeba sestavit;

Je možné smysluplně interpretovat rozhodovací pravidlo atd.

Vzorky jsou popsány na základě charakteristik použitých v pravidle optimálního rozhodování. Když ( A) je to zvláště důležité, protože zejména se výrazně zkracuje čas na přípravu popisů.

Příklady rozpoznávacích algoritmů

Dosud byly publikovány stovky metod rozpoznávání. Jsou spojeni do rodin. Často jsou tyto rodiny popsány ve formě rozhodovacích funkcí (nebo pravidel) s nedefinovanými parametry. Neexistuje žádná zavedená, obecně přijímaná klasifikace rodin rozpoznávacích algoritmů. Proto se omezíme stručný popis několik rodin algoritmů, které prokázaly svou účinnost při řešení aplikovaných geologických problémů, zejména v geologii ropy a zemního plynu.

Pro podrobné seznámení s využitím metod rozpoznávání v geologii ropy a zemního plynu odkazujeme čtenáře na publikace z 60. – 80. let minulého století, kdy bylo jejich využití při řešení problémů predikčních a vyhledávacích profilů rozšířeno. Rozpoznávací metody byly využívány zejména při řešení problémů předpovědi obřích ropných polí, produktivity lokálních zdvihů, fázového stavu uhlovodíků v ložiskách atd. (Rozpoznávání vzorů..., 1971; Samostatná předpověď..., 1978, Předpověď polí..., 1981 atd.).

4.3.1. Bayesovská rozhodovací pravidla

Tato rozhodující pravidla jsou podrobně popsána v Deminově učebnici (2005), kam čtenáře odkazujeme. Pro hlubší pochopení aplikací bayesovské teorie rozhodování v geologii ropy a plynu doporučujeme nahlédnout do monografie (Forecast of fields..., 1981).

4.3.2. Kombinatoricko-logické metody v rozpoznávání

Uvažujme aplikaci těchto metod na příkladu jednoho specifického rozpoznávacího schématu založeného na aparátu diskrétní matematiky a matematické logiky.

Nejprve, pro jednoduchost prezentace, nechť jsou všechna znaménka X 1,...,X n binární. Podle Zhuravleva (1978) nazýváme libovolnou množinu W množin znaků tvaru w=(X j (1) ,…,X j (k)), kde k=1,…,n, systém množiny podpory, W=(w 1 , w 2 ,…, w N ) a její prvky w r jsou množiny podpory.

Nechť wÎW, w=(X j (1) ,…,X j (L)), S k – řádek tabulky, Q p – řádek tabulky. Řádky Sk a Qp se liší v sadě znaků w, pokud je ve w obsažen znak Xj(r) tak, že Xj(r)(Sk)¹Xj(r)(Qp). Jinak řekneme, že se neliší.

Definice 1.Sada funkcí wÎW hlasů pro přiřazení řádku S k první třídě, pokud je v tabulce T 1 existuje řetězec S k takový, že řetězce S a S k se neliší od množiny w; w hlasů pro přiřazení řádku S do druhé třídy, pokud je v tabulce T 2 existuje řetězec Q p takový, že řetězce S a Q p se neliší od množiny w.

pro Г 1 (S) > Q p) a Г 2 (S) ≤ Г 2 (S i), objekt S patří do třídy K 1;

pro Г 2 (S) > S i) a Г 1 (S) ≤ Г 1 (Q p), objekt S patří do třídy K2;

v ostatních případech není S rozpoznáno.

Smyslem tohoto rozhodujícího pravidla je, že pro zařazení vzorku S do třídy K j, kde j = 1,2, musí obdržet

Toto schéma je jednou z nejjednodušších možností hlasování pomocí systému podpůrných sad. Algoritmus je implementací tzv. „principu částečného precedentu“ (Zhuravlev, 1978), ve kterém je závěr o příslušnosti předmětu ke třídě učiněn na základě analýzy shody fragmentů jeho popisu s odpovídající fragmenty popisů objektů této třídy. Částečným precedentem je shoda fragmentů popisů učebního objektu a testu.

Příklad systému podpůrné sady: testovací struktura. Jeho základem jsou koncepty testu a testu slepé uličky navržené S.V. Yablonsky jako matematický aparát pro diagnostiku technických zařízení (Zhuravlev, 1978).

Definice 2. Množina sloupců w se nazývá test pro dvojici tabulek T 1, T 2, pokud mezi řádky S i a Q p nejsou žádné shody, kde

Definice 3.Test se nazývá slepá ulička, pokud z něj nelze odstranit jediný sloupec, aniž by to přestalo být testem.

Dmitriev, Zhuravlev, Krendelev (1966) použili aparát slepých testů k vytvoření algoritmů pro klasifikaci objektů a jevů.

V geologii ropy a zemního plynu byly kombinatoricko-logické metody poprvé použity při řešení problémů prognózování obřích ropných polí (Rozpoznávání vzorů..., 1971), kde byl použit zkušební návrh. Pod vedením A.A. Trofimukův testovací přístup byl aplikován i na řešení dalších důležitých prognostických problémů v geologii ropy a zemního plynu (Separate forecasting..., 1978 atd.). Série vytvořená A.A. Trofimukovy prognózy, které v době zveřejnění nenašly podporu, se později bravurně potvrdily.

Konstantinov, Koroleva, Kudryavtsev (1976) pomocí reprezentativního faktografického materiálu o prognózování rud potvrdili účinnost algoritmů testovacího přístupu ve srovnání s jinými rozpoznávacími algoritmy používanými k řešení problémů prognózování rud.

V geologii ropy a zemního plynu nebyly jiné referenční systémy použity.

Pokud tabulky obsahují charakteristiky měřené na kvantitativních škálách, pak se pro ně používají prahové míry rozlišitelnosti hodnot (viz Krasavchikov, 2009).

4.3.1. Lineární metody

Lineární metody byly mezi prvními, které byly použity k řešení problémů rozpoznávání vzorů (viz Tu, Gonzalez, 1978) v polovině minulého století.

Nechť F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – lineární funkce n proměnných u 1 ,…,u n . Metody pro hledání lineárních rozhodovacích funkcí a pravidel se obvykle nazývají lineární. Obecnou formu lineárních rozhodovacích pravidel lze specifikovat takto:

pro 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε objekt S označuje K 1;

pro 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε objekt S označuje K 2;

při λ-ε

Nechte,. Pro kontrolu existence lineárního rozhodovacího pravidla stačí ověřit existenci řešení systému lineární nerovnosti pro jakékoli ε>0:

,

kde j=1,…,n, i=1,…,m(1), k=m(1)+1,…,m s neznámými y 1 ,…,y n (požadované hodnoty koeficientů a j ) a λ. Pro ověření existence řešení soustav lineárních nerovnic se používají výpočtové metody lineární algebry; tato kontrola není "příliš složitá" a software je obsažen v běžně používaných balíčcích. Pokud řešení existuje, pak je buď jedinečné, nebo jich je nekonečně mnoho.

Existuje mnoho metod pro nalezení lineárních rozhodovacích pravidel, které implementují různé dodatečné požadavky (jako je maximalizace ε, zmenšení dimenze popisu atd.).

Geometrický výklad lineárního rozhodovacího pravidla je následující. Nechť jsou všechny rysy měřeny v kvantitativních měřítcích a E n – n-rozměrném euklidovském prostoru. Hyperplane a 1 X 1 + a 2 X 2 +…+a n X n = λ rozděluje E n na dvě části tak, že každá z nich obsahuje body pouze jedné z tříd. Takové nadroviny se nazývají dělení.

Situace se znatelně zkomplikuje, pokud neexistuje žádná oddělující nadrovina a je nutné najít takovou nadrovinu, která minimalizuje funkcionalitu kvality rozpoznávání. Z výpočtového hlediska je tento problém mnohem obtížnější.

Metody lineárního rozpoznávání se již řadu let používají k předpovědi produktivity lokálních zdvihů a objasnění hranic přírodních uhlovodíkových rezervoárů v ložiskách spodní a střední jury. Západní Sibiř(Kashtanov, Sokolov, 1976, Krasavchikov, 2007).

Objednávání

V praxi místo hledání rozhodovací funkce, která vyhovuje řetězci nerovnic (1), často stačí získat „dobrou“ korelaci řazení v sestupném pořadí hodnot funkce F s řazením na školicí materiál. To má zásadní význam, protože rozhodující funkce, pro kterou jsou splněny nerovnosti (1), nemusí existovat ve třídách „jednoduchých“ funkcí (jako jsou lineární atd.). K přibližnému vyřešení tohoto problému lze použít matematický aparát vícenásobné lineární regrese implementovaný v softwarovém produktu Statistica for Windows.

Nechť se hledá přibližné řešení F ve třídě lineárních funkcí,

F(u 1,u 2,…,u n)= A 1 u 1 + a 2 u 2 +…+ a n u n + b,

Kde A 1 ,…,A n, b jsou koeficienty proměnných, respektive volný člen, Ψ je nějaká monotónní funkce definovaná na množině hodnot cílového atributu (například logaritmus, viz vysvětlení v sekci 10). Poté vyřešte problém vícenásobné lineární regrese ve tvaru:

Najdi 1 ,…, A n, b, pro kterou funkčnost

dosáhne minima,

aproximací určité monotónní funkce cílového znaku získáme přibližné řešení problému řazení. Protože je funkce Ψ monotónní, je možné pomocí Spearmanova koeficientu posoudit spolehlivost vztahu mezi řešením regresního problému a hodnotami cílového atributu. X n +1. Význam r s je přirozeným ukazatelem kvality přibližného řešení objednávkového problému.

Dá se ukázat, že najít přesný k řešení F ve třídě lineárních rozhodovacích funkcí stačí vyřešit soustavu m-1 nepřísných lineárních nerovnic s n neznámými p 1 ,…,p n:

, i=1,…,m-1, (3)

kde n je počet prvků, e>0 je malá kladná konstanta. V tomto případě, jak je snadno vidět, rozdíly X j (S i) - X j (S i +1) = H ij jsou známé veličiny. Naopak z existence řešení soustavy lineárních nerovnic (3) vyplývá, že existuje řešení soustavy nerovnic (2). Nicméně, jak již bylo uvedeno, ve třídě lineárních rozhodovacích funkcí řešení nemusí existovat.

Software pro řešení systémů nepřísných lineárních nerovností není v balíčku Statistica dostupný. V zásadě je však zcela běžný a je obsažen v softwarových produktech určených k řešení problémů výpočetní algebry.

Shluková analýza

Existuje velké množství metod a algoritmů shlukové analýzy. Mezi nimi vynikají dvě velké skupiny, do kterých patří většina publikovaných algoritmů. Jedná se o hierarchické algoritmy, které generují stromové klasifikace objektů, a algoritmy, které generují oddíly (seskupení).

Hierarchické algoritmy

Mezi hierarchickými algoritmy lze rozlišit dvě hlavní třídy: aglomerativní a dělící. Jedná se o algoritmy krok za krokem. Aglomerativní algoritmy začínají tím, že každý objekt je samostatným shlukem, a končí tím, že všechny shluky jsou sloučeny do jednoho objektu. V každém kroku se dva „nejbližší“ shluky v určitém smyslu spojí. Blízkost mezi shluky je dána „vzdáleností“ nebo mírou blízkosti. Pod "vzdáleností" v v tomto případě je chápána jako nezáporná symetrická funkce. Příklady takových funkcí budou diskutovány níže. V divizních metodách naopak v prvním kroku všechny objekty tvoří jeden shluk, v posledním - každý objekt představuje samostatný shluk.

6.1.1. Aglomerativní algoritmy

Podívejme se na aglomerativní metody uvedené v balíčku Statistica pro Windows. K tomu nejprve definujeme funkce, které se používají k odhadu vzdáleností mezi konečnými podmnožinami metrického prostoru M.

Nechte sadu popisů objektů S=(S 1 ,…,S m ) rysy X 1 (S),…,X n (S) jsou obsaženy v euklidovském prostoru E n , takže pro libovolnou dvojici objektů S i , S j z S je definována metrika (vzdálenost) ρ ij = ρ(S i ,S j) a lze sestavit symetrickou matici vzdáleností R=(ρ ij) m ´ m. Uveďme příklady funkcí dvou proměnných, jejichž hodnoty hrají roli vzdáleností mezi disjunktními podmnožinami v shlukové analýze, ačkoli formálně tyto funkce nejsou metriky. Nechť A l, A q М S Nemít společné prvky, A l ÇA q = Æ. Pak:

a) ρ lq se rovná vzdálenosti mezi dvěma nejbližšími objekty množin A l , A q ;.

b) ρ lq je rovna vzdálenosti mezi nejvzdálenějšími objekty množin A l, A q;

c) ρ lq je rovna vzdálenosti mezi těžišti množin A l, A q (body se středním

hodnoty všech ukazatelů);

d) ρ lq se rovná aritmetickému průměru vzdáleností mezi objekty množin A l, A q;

e) ρ lq se rovná vzdálenosti mezi body se středními hodnotami prvků pro násobek

vlastnosti Al, Aq;

e) ρ lq se rovná součtu vzdáleností mezi prvky množin A l, A q.

g) ρ lq se rovná tzv. „statistické vzdálenosti“ (Durand, Odell, 1977) mezi

sady A l , A q:

.

Zde jsou vektory průměrných hodnot vlastností pro podmnožiny Al, Aq, T– transpoziční znak. „Statistická vzdálenost“ mezi podmnožinami Al, Aq je tedy druhá mocnina vzdálenosti mezi vektory průměrných hodnot prvků (těžišť) s koeficientem m l m q /(m l + m q).

V hierarchických aglomerativních algoritmech založených na výpočtu „vzdáleností“ mezi podmnožinami Al, Aq tvaru (a-g) a podobně je v prvním kroku každý objekt považován za samostatný shluk. V dalším kroku se spojí dva nejbližší objekty nová třída, jsou určeny „vzdálenosti“ od této třídy ke všem ostatním objektům. Matice vzdálenosti se tedy mění s ohledem na výsledky shlukování, včetně zmenšení jeho rozměru. Na pth krok pro shluky a matici vzdáleností z předchozího kroku R p -1 se stejný postup opakuje, dokud se všechny objekty nespojí do jednoho shluku. Na rozdíl od R 1 =R, když p>1 prvky R p nejsou vzdálenosti mezi objekty, ale „vzdálenosti“ mezi shluky.

Pokud má několik objektů (nebo shluků) minimální „vzdálenost“ najednou, pak jsou možné dvě strategie: vybrat jeden náhodný pár nebo kombinovat všechny páry najednou. První metoda je klasická; Někdy se v literatuře nazývá vzestupná hierarchická klasifikace. Druhá metoda se používá mnohem méně často.

Metoda založená na výpočtu „statistické vzdálenosti“ (viz odstavec (g) výše) se nazývá Wardova metoda (Mandel, 1988) podle jména specialisty, který ji navrhl. Názvy zbývajících metod jsou určeny vzdáleností, která se v nich používá.

Výsledky všech hierarchických aglomeračních postupů jsou obvykle prezentovány formou tzv dendrogramy(viz obr. 1), ve kterém jsou čísla objektů zobrazena vodorovně a hodnoty mezishlukových vzdáleností ρ lq, při kterých se dva shluky spojily, jsou zobrazeny svisle.

6.1.2. Dělitelné algoritmy

Tuto třídu algoritmů shlukové analýzy popíšeme na příkladu „Fast divisional combinational algorithm“ navrženého Chaudhurim (Mandel, 1988). Experimenty provedené na INGG ukázaly její vysokou účinnost při řešení problému shlukování řezů podle tloušťky jejich jednotlivých horizontů na základě informací obsažených v tloušťkových mřížkách. Zpracování informací o střední juře jihovýchodní WSP ukázalo, že rychle a „inteligentně“ shlukuje obrovské množství dat reprezentovaných mřížkovými modely. Použití jiných algoritmů ke shlukování těchto polí, někdy sestávajících z více než milionu objektů charakterizovaných více než 10 prvky, je často nemožné nebo extrémně obtížné. Algoritmus Chaudhuri není uveden v softwarovém produktu „Statistica for Windows“.

Pro stručnost budeme tento algoritmus nazývat také algoritmem hyperkrychle. Pojďme si to stručně popsat.

Hyperkrychle, která obsahuje všechny body (určené rozsahem variací prvků), je v prvním kroku podél každé osy rozdělena rovinou k ní kolmou na 2 n"kostka" kde n– počet znaků. Na j Na -tém kroku se každá z těchto kostek také rozbije, tj. dopadne 2 n j hyperkrychle. Pokud výsledná krychle obsahuje alespoň jeden objekt, považuje se za vyplněnou, pokud ne, považuje se za prázdnou. Shluk je zde největší spojená oblast, ve které jsou libovolné dva objekty spojeny neprázdnými buňkami (tj. spojená složka grafu, jehož vrcholy jsou objekty, a dva vrcholy, ve kterých jsou spojeny hranou právě tehdy, když jsou buď ve stejné buňce nebo je obsahují buňky mají společné ohraničení, i když se skládá z jednoho bodu).

Jak se zvyšujete j roste počet shluků, tzn. Algoritmus má rozdělující povahu. Je to jeden z nejrychlejších hierarchických algoritmů, nevyžaduje předběžnou normalizaci indikátorů, ukládání a přepočítávání matice vzdáleností a může pracovat v původním prostoru. Tyto a některé další vlastnosti z něj dělají jeden z nejpreferovanějších algoritmů pro konstrukci hierarchických klasifikací v případě velké databáze data.

Sekce 2

1. Rozhodující funkcí při rozpoznávání vzorů je mapování, které převádí množinu hodnot různých typů znaků X 1 (S),...,X n (S) na číslo. Toto číslo je hodnotou rozhodovací funkce F na objektu S. Rozhodovací pravidlo v rozpoznávání vzorů je příkaz, který obsahuje hodnoty rozhodovací funkce a řídicí parametry a při zohlednění těchto hodnot buď přiřadí vzorku do jedné ze tříd nebo odmítne uznání.

2. Formulujte pojem rozhodovací funkce ve vztahu k problému řazení.

3. Může být cílový znak ve vztahu k verzi objednávkového problému formulovaného v části 2 a) logický; b) nominální?

4. Proč se tomu v počátečních fázích vývoje shlukové analýzy (na rozdíl od rozpoznávání vzorů) říkalo „učení bez dozoru“?

5. Závislost mezi rysy může být prezentována jak ve formě vyřešené s ohledem na jeden nebo druhý rys, například Xj ≈ f(Xi,Xk,…,Xl), tak bez takového rozlišení. Například (ln(X j)) 2 + ln (X j + X k) -1≈0.

6. Formulujte problém rozpoznávání jako úkol vyplnit jedinou mezeru.

7. Formulujte úlohu vyplnění jediné mezery v binárním nebo nominálním atributu jako rozpoznávací úlohu.

Sekce 3

1. V jakých případech a proč posuzovat vztah mezi kvantitativní znaky používat racionálně hodnost Spearmanův koeficient?

2. Je to vždy množné číslo? lineární regrese vyřeší přesně problém s objednávkou?

3. Je možné použít lineární regresní model z oddílu 3, pokud Y je atributem pořadí?

4. Je možné použít lineární regresní model z oddílu 3, pokud Y je nominální atribut?

5. Je možné použít lineární regresní model z oddílu 3, pokud alespoň jeden prvek ze seznamu X 1,...,X n je hodnost nebo jmenovitý?

6. Je možné bez předběžné normalizace znaků porovnat váhy, se kterými jsou zahrnuty do regresní rovnice, a seřadit je podle jejich vlivu na hodnotu predikovaného ukazatele?

7. Co je b v části „Vícenásobná lineární regrese“ balíčku „Statistica pro Windows“? Jak lze hodnoty bj použít při porovnávání charakteristických znaků na základě jejich vlivu na hodnotu závislého (cílového) znaku?

Oddíl 4

1. Jaké je vysvětlení ve fázi vytváření seznamu počátečních znaků?

2. Jak nám sankce za chyby a selhání umožňují regulovat hodnocení kvality rozpoznávání?

3. Které ze dvou lineárních rozhodovacích pravidel, která mají stejné hodnocení kvality rozpoznávání, je vhodnější: jedno využívající 5 funkcí nebo 7?

4. Pokud je metoda rozpoznávání použita k objasnění hranic (laterálně) geologického objektu v sedimentární sekvenci, pak určité procento poruch nebo dokonce chyb v uzlech sítě nemusí ovlivnit predikovanou polohu jeho hranice. V důsledku vyřešení problému rozpoznávání vzorů pro uzly mřížky se objeví příslušnost místní oblasti (jejíž střed je uzel) k modelovanému objektu. náhledová verze hranic. Obvykle se v důsledku analýzy výsledné verze vyjasní geologická situace obecně, takže výzkumník je již schopen „nezávisle“ nakreslit hranici objektu.

5. V důsledku řešení rozpoznávacích problémů pomocí znaků vypočítaných z mřížek referenčních geofyzikálních povrchů a dat z hlubinných vrtů (rozdělení podle stratigrafických úrovní, tloušťky horizontů atd.) jsou hranice (laterální) hlavních stratigrafických horizontů ve spodní - Středojurská ložiska západní Sibiře, což zase umožnilo objasnit odhady jurských zdrojů uhlovodíků v řadě velkých oblastí.

6. Při čtení prací o aplikaci metod rozpoznávání v geologii ropy a zemního plynu je třeba mít na paměti, že výzkumník se obvykle opírá o své zkušenosti s řešením podobných problémů a literární údaje; Přitom nepoužívá „nejlepší“ software, ale ten, který má a umí ho používat.

7. Zkušenosti s řešením řady praktických problémů v oblasti modelování geologických objektů ve vrstvených vrstvách nám umožňují formulovat následující požadavky na algoritmy a software pro rozpoznávání vzorů ve vztahu k modelování regionálních, zonálních a lokálních objektů v sedimentární pánvi:

- „být schopen“ pracovat s funkcemi specifikovanými na mřížkách;

- najít jednoduchá a snadno interpretovatelná rozhodovací pravidla;

- poskytují účinnou redukci popisného rozměru n;

- práce se závislými a heterogenními charakteristikami;

- zohlednit složitý charakter členění tříd (laterálně).

Sekce 5

Vícenásobné lineární regresní analýza navržený k nalezení lineární závislost rys Y z prvků X 1 ,…,X n

Y≈ A 1 x 1 +…+ a n X n + b=L(Xi,..., Xn). (4)

V problému řazení je nutné vyřešit obecnější problém: najít závislost F, která uspořádá učební objekty v sestupném pořadí hodnot cílového znaku X n +1. V tomto případě se může ukázat, že hodnoty funkce F pro trénovací objekty a vzorky se nebudou shodovat s hodnotami cílové funkce.

Řešení úlohy lineární regrese hledání minima funkcionálu (4) nemusí vést k nalezení přijatelné aproximace řešení problému řazení. Můžete se však pokusit transformovat cílový znak X n +1 monotónní funkcí Ψ tak, že pro Ψ(X n +1) lze získat požadovanou aproximaci pomocí metody nejmenších čtverců. Protože Ψ je monotónní, dává to řešení problému řazení.

S největší pravděpodobností neexistuje žádný „univerzální“ způsob výběru Ψ. Nicméně některé praktická doporučení svým výběrem.

Monotónní funkce Ψ se obvykle používá v případě, kdy je „obvyklý“ párový korelační koeficient r(Demin, 2005, str. 42-44) mezi hodnotami cílového znaku X n +1 a odpovídajícími hodnotami vypočtenými pomocí rovnice vícenásobné lineární regrese je „malý“. Zároveň nám věcné úvahy umožňují předpokládat, že je stále možné seřadit objekty v sestupném pořadí cílového atributu X n + 1 podle hodnot X 1 ,..., X n. Nejčastěji se vícenásobná lineární regrese s „dobře zvoleným“ Ψ úspěšně aplikuje při rozložení hodnot v sekvenci X n +1 (S m), X n +1 (S m -1),…, X n +1 (S 1) má výrazný nelineární charakter, srovnatelný např. s exponenciálním. Funkce Ψ se obvykle volí tak, aby pokud možno eliminovala ostrou nelinearitu. Logaritmus je typickým příkladem takové funkce, opakovaně používaný v podobné situace při řešení praktických problémů

Oddíl 6

1. Nechť A l =((0,1), (2,0), (2,3)), A q =((5,1), (6,2), (8,3), (9 ,5), (10,7)). Vypočítejte vzdálenosti (a–g).

2. Za předpokladu S= A l ÈA q vyřešte problém shlukování kolekce objektů S pomocí Choudaryho metody.

3. Na místní úrovni se pro jednu oblast nebo shluk oblastí („malá“ zóna) úspěšně používá shluková analýza ke korelaci disjunktivních zlomů podle 3D seismických dat (Kashik et al, 2004).

Zkušenosti s používáním shlukové analýzy na regionální a zonální úrovni ukázaly, že tyto metody mohou poskytnout užitečné informace o historii vývoje studovaných vrstev a tektonických procesů, typech geologických řezů, jejich laterální distribuci, zónách vývoje nádrží v nich a obsah ropy a plynu. K tomu však, jak se ukázalo, jsou zapotřebí poměrně „husté“ pravidelné mřížky tloušťky sedimentu, takže hlavním faktorem, která brání jeho použití v regionálních a zónových stavbách (v případě „velkých“ území) je nutnost ukládat a přepočítávat matici vzdáleností pro celý soubor objektů.

Na základě odhadu složitosti výpočtu , pak na místní úrovni, s výjimkou 3D zpracování seismických dat, je docela možné použít téměř jakýkoli algoritmus shlukové analýzy. Při provádění regionálních a zonálních staveb pomocí rastrových modelů (v případě „velkých“ území), stejně jako při zpracování 3D seismických dat (i na úrovni jednotlivého území nebo „malé zóny“), je vhodné zvolit algoritmus, který nevyžaduje přepočítávání matice vzdáleností, například Choudaryho metoda.

4. Poznamenejme, že v obecný obrys, přístup, který umožňuje efektivně využívat shlukovou analýzu vrtných dat v prediktivních konstrukcích. Pojďme například analyzovat data o regionální nebo zonální nádrži uhlovodíků. Na základě počátečního seznamu vlastností (bez výsledků testů studní a jejich souřadnic) jsou objekty seskupeny.

Dva přístupy k analýze dat

Každá organizace v průběhu své činnosti usiluje o zvyšování zisku a snižování nákladů. Pomáhají jí s tím noví Počítačové technologie, používání různých programů pro automatizaci obchodních procesů. Jedná se o účetní, účetní a skladové systémy, manažerské účetní systémy a mnohé další. Čím přesněji a úplněji budou informace shromážděny a systematizovány, tím úplnější bude pochopení procesů v organizaci. Moderní paměťová média umožňují ukládat desítky a stovky gigabajtů informací, ale bez použití speciální prostředky analýzy nashromážděných informací se taková média jednoduše promění v skládku neužitečných informací. Velmi často přijetí správné rozhodnutí komplikované tím, že data jsou sice dostupná, ale neúplná, nebo naopak nadbytečná, zahlcená informacemi, které se k případu vůbec netýkají, nesystematizované nebo nesprávně systematizované. Pak se uchýlí k pomoci software, které umožňují redukovat informace do podoby, která umožňuje s dostatečnou mírou spolehlivosti vyhodnotit skutečnosti v nich obsažené a zvýšit pravděpodobnost optimálního rozhodnutí.

Existují dva přístupy k analýze dat pomocí informačních systémů.

V první verzi program slouží k vizualizaci informací – získávání dat ze zdrojů a jejich poskytování osobě k nezávislé analýze a rozhodování. Data poskytovaná programem jsou obvykle jednoduchá tabulka a v této podobě je velmi obtížné je analyzovat, zvláště pokud existuje mnoho dat, ale existuje více pohodlnými způsoby zobrazuje: kostky, grafy, histogramy, mapy, stromy...

Druhý případ použití software pro analýzu je stavební modely. Model simuluje určitý proces, například změny v objemu prodeje určitého produktu, chování zákazníků atp. Pro sestavení modelu je nutné předzpracovat data a následně je na ně aplikovat. matematické metody analýza: shlukování, klasifikace, regrese atd. Sestrojený model lze použít pro rozhodování, vysvětlování důvodů, posuzování významnosti faktorů, modelování různých možností vývoje...

Podívejme se na příklad. Poskytování slev zákazníkům je pobídkou ke zvýšení objemu nákupů. Čím více se určitý produkt prodává, tím větší je zisk. Na druhou stranu, čím větší sleva, tím nižší přirážka na produktu a tím menší zisk prodej tohoto produktu přináší. Nechť existuje historie prodeje, reprezentovaná tabulkou se sloupci: datum, objem prodeje, procentuální sleva, přirážka a zisk. Při provádění ruční analýzy se můžete podívat na diagram.

Tutorial

BBK 22,172ya73

Recenzenti:

Martyšenko S.N.

Počítačová analýza dat:

Tutorial. – Vladivostok: Nakladatelství VGUES, 2010. – 80 s.

Sestaveno v souladu s osnovy v disciplíně „Analýza počítačových dat“ a požadavky ruské státní normy. Určeno pro studenty oborů 0618000 Matematické metody v ekonomii a 351400 " Aplikovaná informatika v ekonomii“. Obsahuje teoretický materiál k disciplíně, úkoly na cvičení a návody k jejich realizaci.

Schváleno na jednání katedry matematiky a modelování dne 19.10.08***, zápis č. 18 ***

© Nakladatelství Státní univerzity Vladivostok

ekonomika a servis, 2010

Úvod

Moderní věda a většina oblastí praktické činnosti jsou nyní charakterizovány statistickým přístupem. Ekonomické zákony lze považovat za deterministické pouze v průměru, při podrobnějším studiu se ukazuje, že jsou typicky náhodné.

Manuál pojednává o teoretických a praktické otázky analýza statistických dat. Počítačová analýza dat by měla být považována za studium technik pro praktickou aplikaci teoretických metod matematické statistiky. Aplikovaný charakter studované disciplíny podtrhuje její zaměření na použití konkrétního softwarového produktu EXCEL.

Socioekonomické procesy a jevy závisí na velkém množství parametrů, které je charakterizují, což způsobuje potíže spojené s identifikací struktury vztahů mezi těmito parametry. V takových situacích, kdy se rozhoduje na základě analýzy stochastických, neúplných informací, je nutné použít metody Statistická analýza data.

Metody analýzy dat umožňují přiměřeně vybrat z řady možných pravděpodobnostních statistických modelů ten, který nejlépe odpovídá výchozím statistickým datům charakterizujícím skutečné chování studované populace objektů, vyhodnotit spolehlivost a přesnost závěrů učiněných na základě velkého statistického materiálu.

Manuál zkoumá soubor hluboce formalizovaných statistických metod založených na reprezentaci počáteční informace ve vícerozměrném geometrickém prostoru a umožňující určit implicitní (latentní), ale objektivně existující vzorce v organizační struktuře a vývojové trendy socioekonomických procesů a jevů. je studován.

Hlavním cílem příručky je vzdělávat studenty teoretické základy nejběžnější metody statistické analýzy dat a rozvoj dovedností v používání standardních softwarových nástrojů, které implementují postupy statistické analýzy dat.

Pro úspěšné prostudování látky uvedené v příručce potřebuje student znalost hlavních částí „Vyšší matematika“ a „Matematická statistika“. Je vyžadována znalost takových základních pojmů, jako jsou: typy náhodných veličin, charakteristiky náhodných veličin, základní zákony rozdělení náhodných veličin, metody hodnocení výběrových charakteristik, základy statistické inference pomocí statistických kritérií a testování hypotéz, lineární a nelineární regrese.

V průběhu studia materiálu uvedeného v manuálu by si měl student vytvořit představu o konkrétních praktických situacích, ve kterých je nutné použít metody statistické analýzy.

V důsledku práce s manuálem a plnění praktických úkolů musí žák dosáhnout určité úrovně znalostí v oboru počítačová analýza data. Požadovaná úroveň znalostí se skládá ze tří bodů.

1. mistr:

Koncepce a technologie moderní analýzy dat na počítači;

Principy fungování softwaru určeného pro statistickou analýzu dat;

Principy fungování moderních vizuálních metod analýzy dat a jejich využití pro statistické vyvozování a formulaci hypotéz o struktuře dat.

2. Rozvinout schopnost samostatně řešit problémy týkající se volby metod analýzy v praktických situacích;

3. získat dovednosti v používání softwarových systémů; určené pro statistickou analýzu dat, stejně jako testování softwarových modulů na modelových datech.

Mechanismus analýzy a předpovědi dat poskytuje uživatelům (ekonomům, analytikům atd.) možnost hledat v datech nashromážděných v informační základně nezřejmé vzorce. Tento mechanismus umožňuje:

  • vyhledávat vzory ve zdrojových datech informační báze;
  • řídit parametry prováděné analýzy jak programově, tak interaktivně;
  • realizovat programový přístup na výsledek analýzy;
  • automatické zobrazení výsledku analýzy v tabulkovém dokumentu;
  • vytvářet předpovědní modely, které vám umožní automaticky předpovídat následné události nebo hodnoty určitých charakteristik nových objektů.

Mechanismus analýzy dat je sada vestavěných jazykových objektů, které se vzájemně ovlivňují, což umožňuje vývojáři používat jeho komponenty v libovolné kombinaci v jakémkoli aplikačním řešení. Vestavěné objekty usnadňují organizaci interaktivní konfigurace parametrů analýzy uživatelem a také umožňují zobrazit výsledek analýzy ve formě vhodné pro zobrazení v tabulkovém dokumentu.

Mechanismus vám umožňuje pracovat jak s daty přijatými z informační báze, tak s daty přijatými z externího zdroje, předem nahranými do tabulky hodnot nebo tabulkového dokumentu:

Aplikací jednoho z typů analýzy na zdrojová data můžete získat výsledek analýzy. Výsledek analýzy představuje určitý model chování dat. Výsledek analýzy lze zobrazit v konečném dokumentu nebo uložit pro budoucí použití.

Další využití výsledku analýzy spočívá v tom, že na jejím základě lze vytvořit předpovědní model, který umožňuje předpovídat chování nových dat v souladu se stávajícím modelem.

Můžete například analyzovat, které produkty jsou nakupovány společně (v jedné faktuře) a uložit tento výsledek analýzy do databáze. Později při vytváření další faktury:

Na základě uloženého výsledku analýzy můžete sestavit model prognózy, naplnit jej „vstupem“ novými údaji obsaženými v této faktuře a „výstup“ získat předpověď – seznam zboží, které protistrana B.S. Petrov. S největší pravděpodobností je také získá, pokud mu budou nabídnuty:

Nástroj pro analýzu a prognózování dat implementuje několik typů analýzy dat:

Implementované typy analýz

obecné statistiky

Je to mechanismus pro sběr informací o datech ve zkoumaném vzorku. Tento typ analýzy je určen k předběžnému zkoumání analyzovaného zdroje dat.

Analýza odhaluje řadu charakteristik číselných a spojitých polí. Při výstupu sestavy do tabulkového dokumentu vyplňte koláčové grafy pro zobrazení složení polí.

Hledejte asociace

Tento typ analýzy vyhledává společně často se vyskytující skupiny objektů nebo charakteristické hodnoty a také vyhledává asociační pravidla. Vyhledávání přidružení lze použít například ke společnému určení často nakupovaného zboží nebo služeb:

Tento typ analýzy umí pracovat s hierarchickými daty, což umožňuje např. najít pravidla nejen pro konkrétní produkty, ale i pro jejich skupiny. Důležitá vlastnost Tento typ analýzy spočívá ve schopnosti pracovat jak s objektovým zdrojem dat, ve kterém každý sloupec obsahuje nějakou charakteristiku objektu, tak se zdrojem událostí, kde jsou charakteristiky objektu umístěny v jednom sloupci.

Pro snazší vnímání výsledku je poskytnut mechanismus pro ořezávání nadbytečných pravidel.

Sekvenční vyhledávání

Typ analýzy sekvenčního vyhledávání vám umožňuje identifikovat sekvenční řetězce událostí ve zdroji dat. Může se například jednat o řetězec zboží nebo služeb, které zákazníci často nakupují postupně:

Tento typ analýzy umožňuje hierarchické vyhledávání, což umožňuje sledovat nejen sekvence konkrétních událostí, ale také sekvence nadřazených skupin.

Sada parametrů analýzy umožňuje specialistovi omezit časové vzdálenosti mezi prvky hledaných sekvencí a také upravit přesnost získaných výsledků.

Shluková analýza

Clusterová analýza umožňuje rozdělit původní soubor zkoumaných objektů do skupin objektů, takže každý objekt je více podobný objektům ze své skupiny než objektům z jiných skupin. Další analýzou výsledných skupin, nazývaných shluky, můžete určit, jak je ta či ona skupina charakterizována, a rozhodnout o metodách práce s objekty různých skupin. Například pomocí shlukové analýzy můžete rozdělit klienty, se kterými společnost pracuje, do skupin, abyste při práci s nimi mohli uplatňovat různé strategie:

Pomocí parametrů shlukové analýzy může analytik konfigurovat algoritmus, kterým bude rozdělení prováděno, a také může dynamicky měnit složení charakteristik zohledněných v analýze a konfigurovat pro ně váhové koeficienty.

Výsledek shlukování lze zobrazit v dendrogramu – speciálním objektu určeném k zobrazení sekvenčních vztahů mezi objekty.

Rozhodovací strom

Typ analýzy rozhodovacího stromu vám umožňuje sestavit hierarchická struktura klasifikační pravidla, prezentovaná ve formě stromu.

Chcete-li sestavit rozhodovací strom, musíte vybrat cílový atribut, na kterém bude klasifikátor postaven, a řadu vstupních atributů, které budou použity k vytvoření pravidel. Atribut target může obsahovat například informace o tom, zda klient přešel k jinému poskytovateli služeb, zda byla transakce úspěšná, zda byla práce provedena dobře atd. Vstupními atributy mohou být například věk zaměstnance, jeho pracovní zkušenosti, finanční situace klienta, počet zaměstnanců ve firmě atd.

Výsledek analýzy je prezentován ve formě stromu, jehož každý uzel obsahuje určitou podmínku. Rozhodnout, do které třídy by měla určitá osoba patřit nový objekt, je nutné, odpovídat na otázky v uzlech, projít řetězem od kořene k listu stromu a přesunout se do podřízené uzly v případě kladné odpovědi a sousednímu uzlu v případě záporné odpovědi.

Sada parametrů analýzy umožňuje upravit přesnost výsledného stromu:

Předpovědní modely

Předpovědní modely vytvořené mechanismem jsou speciální předměty, které jsou vytvořeny z výsledku analýzy dat a umožňují automaticky provádět prognózu pro nová data v budoucnu.

Například model prognózy vyhledávání přidružení, vytvořený analýzou nákupů zákazníků, lze použít při práci s nakupujícím zákazníkem s cílem nabídnout mu zboží, které si pravděpodobně koupí spolu se zbožím, které si vybral.

Využití mechanismu analýzy dat v aplikačních řešeních

Aby se vývojáři aplikačních řešení seznámili s mechanismem analýzy dat, je k dispozici demo na disku „Information and Technology Support“ (ITS). informační základna. Obsahuje univerzální zpracovatelskou „Data Analysis Console“, která umožňuje provádět analýzu dat v libovolném aplikačním řešení, aniž by bylo nutné měnit konfiguraci.