Windows 10

Metody analytického zpracování dat pro podporu rozhodování. Spotřeba spotřebního materiálu

Metody analytického zpracování dat pro podporu rozhodování.  Spotřeba spotřebního materiálu

Nástroje třídy OLAP (On-Line Analytical Processing, tradiční ruský překlad - „operační analytické zpracování“) jsou dnes populární analytické prostředky, bez kterého je téměř nemožné si představit informační a analytický systém. Samotný termín OLAP byl vytvořen v roce 1993 Coddem, který diskutoval o nevýhodách relační model z pohledu firemních analytiků. Nástrojem, který měl tyto nedostatky napravit, byl koncept OLAP. Abychom byli spravedliví, je třeba říci, že před zavedením tohoto termínu byl používán přístup podobný OLAP (jmenovitě multidimenzionální reprezentace dat), ale impulsem k širokému rozšíření technologie a její implementaci do mnoha analytických produktů byl Coddův článek .

Mezi nevýhody relačního modelu a relační DBMS v souvislosti s úkoly analýzy Codd poznamenal následující. Za prvé, analytické dotazy jsou poměrně složité a zahrnují provádění velké množství relativně pomalé operace relačního spojení. Zadruhé, skládání dotazů do relačních databází není pro podnikové analytiky dostupné (od nynějška je budeme nazývat „decision makers“ nebo decision makers). Druhý nedostatek způsobuje poměrně dlouhý cyklus získávání potřebných informací od rozhodovatele - je nutné např. kontaktovat informační služba, kde připraví formulář hlášení s příslušnými informacemi a následně použijí hlášení tohoto formuláře. Codd viděl řešení těchto problémů v analytickém nástroji, který podporuje vícerozměrný model, srozumitelný pro osoby s rozhodovací pravomocí. To znamená, že je identifikováno několik dimenzí, v jejichž kontextu jsou zvažovány různé ukazatele výkonnosti podniku. Takový model by měl vzhledem ke své jasnosti a intuitivnosti umožnit osobě s rozhodovací pravomocí přístup k nezbytné informace. Na druhou stranu musí být odpovědi na dotazy generovány dostatečně rychle (tento požadavek je zodpovědný za „On-Line“ část zkratky OLAP).

Codd také formuloval 12 pravidel, která musí systém OLAP splňovat. Později byla tato pravidla přepracována do 18 vlastností, rozdělených do 4 skupin. Tato sada pravidla nejsou úspěšná. Možná proto, že na rozdíl od známého Coddova manifestu z roku 1970 popisujícího model relačních dat obsahoval dokument z roku 1993 mnohem méně zásadního zdůvodnění a byl méně teoreticky ověřen. Navíc byl vydán pod záštitou jednoho renomovaného dodavatele analytických systémů a pravidla v něm formulovaná nemusí být univerzální, ale zohledňují specifika produktů tohoto dodavatele. Tak či onak je oblíbenější tzv. FASMI test, který lze zaměnit za definici OLAP. FASMI je zkratka, která znamená:

Rychlý – Doba odezvy systému by se měla měřit v sekundách. Nezávislé studie ukazují, že doba, po kterou uživatel čeká na odpověď z počítače, je asi 20 sekund. Po této době začne uživatel pociťovat nepohodlí. Dosažení jakýchkoli dotazů na velké množství informací během několika sekund je pro výrobce nástrojů OLAP nepochybně obtížným úkolem. Ve skutečnosti jde o jeden z hlavních směrů vývoje v této oblasti. Jak ale ukazují některé průzkumy, neuspokojivá provozní rychlost je stále jednou z hlavních stížností uživatelů na nástroje této třídy.

Analysys (analýza) - systém je určen pro komplexní studium dat, přičemž tato studie může obsahovat prvky obchodní logiky, podporovat uživatelem definované závislosti a podobně.

Shared (shared, multi-user) – systém musí podporovat víceuživatelskou práci a zároveň zajistit potřebnou úroveň důvěrnosti. Pokud je povolena uživatelská korekce dat, pak musí být řízena známými uzamykacími mechanismy na požadované úrovni.

Multidimenzionální – Data musí být prezentována ve vícerozměrné podobě. Toto je hlavní část definice OLAP.

Informace (informace) - tato komponenta naznačuje, že výsledkem analýzy je informace (na rozdíl od dat uložených v relační databáze).

Test FASMI, stejně jako Coddova pravidla, nastavuje určitý standard – „ideální nástroj OLAP“. Ve skutečnosti lze různé produkty porovnávat na základě toho, jak dobře splňují tato ustanovení. Produkty, které by je zcela uspokojily, at tento moment neexistuje.

Spojení mezi OLAP a datovým úložištěm

Datové sklady odrážejí moderní trend ke shromažďování a čištění dat z transakčních systémů a jejich ukládání pro analytické úlohy. Vznik technologie datových skladů je částečně způsoben stejnými předpoklady jako OLAP – rozdílem v analytických dotazech a typických dotazech na účetní systémy. Kromě toho se velmi relevantní ukázalo přání shromažďovat data ze všech zdrojů v podniku za účelem vytvoření ucelenějšího informačního obrazu.

Typ datového skladu je datové tržiště (nebo datové tržiště). Jejich odlišnost od datových skladů spočívá především ve velikosti. Pokud do datového skladu proudí podniková data, pak vitrína prezentuje data týkající se pouze jedné divize, služby nebo pobočky. Výklad lze vytvořit buď samostatně, nebo jako podmnožinu podnikového datového skladu.

Shromážděno z různé zdroje Konzistentní a někdy agregovaná data jsou ideální pro analýzu. Proto jsou ve většině případů nástroje OLAP nasazeny specificky na základě skladu nebo datového tržiště a jsou navrženy tak, aby analyzovaly tam obsažená data. Jde o tak obecný trend, že v některých zdrojích se nerozlišují pojmy Data Warehouse (data mart) a OLAP. Z metodické nutnosti je však stále potřeba rozlišovat. Technologie datových skladů je více zaměřena na sběr, čištění a ukládání dat a OLAP se více zaměřuje na jejich zpracování a prezentaci.


Související informace.


Struktura skladové databáze je obvykle navržena tak, aby co nejvíce usnadnila analýzu informací. Mělo by být vhodné „rozložit“ data v různých směrech (nazývaných rozměry). Například dnes chce uživatel vidět souhrn zásilek dílů podle dodavatele, aby mohl porovnat své aktivity. Zítra bude stejný uživatel potřebovat obrázek o změnách objemu dodávek dílů podle měsíců, aby mohl sledovat dynamiku dodávek. Struktura databáze by měla podporovat tyto typy analýz tím, že umožňuje extrakci dat, která odpovídají dané sadě dimenzí.

Základem operativního analytického zpracování dat je princip uspořádání informací do hyperkubického modelu. Nejjednodušší trojrozměrná datová kostka pro dodávky dílů pro dříve diskutovanou testovací databázi je na Obr. 3.11. Každá buňka odpovídá „skutečnosti“ – například objemu dodávky dílu. Podél jedné strany krychle (jeden rozměr) jsou měsíce, během kterých byly uskutečněny dodávky odražené od krychle. Druhý rozměr se skládá z typů dílů a třetí rozměr odpovídá dodavatelům. Každá krabice obsahuje dodávané množství pro odpovídající kombinaci hodnoty ve všech třech dimenzích. Je třeba poznamenat, že při plnění krychle byly agregovány hodnoty pro dodávky každého měsíce z testovací databáze.


3.11. Zjednodušená možnost hyperkrychle pro analýzu dodávek dílů

Systémy třídy OLAP se liší způsobem, jakým prezentují data.

Multidimenzionální OLAP (MOLAP) – tyto systémy jsou založeny na vícerozměrné datové struktuře založené na dynamických polích s odpovídajícími přístupovými metodami. MOLAP je implementován pomocí patentovaných technologií pro organizaci vícerozměrných DBMS. Výhodou tohoto přístupu je pohodlí při provádění výpočtů na buňkách hyperkrychle, protože Pro všechny kombinace měření se vytvoří odpovídající buňky (jako v tabulkovém procesoru). Mezi klasické zástupce takových systémů patří Oracle Express a SAS Institute MDDB.



Relační OLAP(ROLAP)– podporuje vícerozměrné analytické modely nad relačními databázemi. Tato třída systémů zahrnuje Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Desktop OLAP– nástroje pro generování vícerozměrných dotazů a reportů pro místní informační systémy ( tabulky, ploché soubory). Můžete si vybrat následující systémy– Business Objects, Cognos Power Play.

E.F. Codd definoval dvanáct pravidel, která musí produkt OLAP splňovat, včetně vícerozměrné koncepční reprezentace dat, transparentnosti, dostupnosti, robustního výkonu, architektura klient-server, rovnost dimenzí, dynamické zpracování řídkých matic, podpora víceuživatelského režimu, neomezená podpora mezidimenzionálních operací, intuitivní manipulace s daty, flexibilní mechanismus generování sestav, neomezený počet dimenzí a úrovní agregace.



Nejběžnější systémy jsou třídy ROLAP. Umožňují vám organizovat informační model přes relační kompletní úložiště jakékoli struktury nebo přes speciální datový trh.

Rýže. 3.12. Hvězdicový diagram analytické vitríny pro dodávky dílů

U většiny datových skladů nejvíce efektivní způsob modelování N-rozměrné krychle je „hvězda“. Na Obr. Obrázek 3.11 ukazuje model hyperkrychle pro analýzu dodávky dílů, ve kterém jsou informace konsolidovány podél čtyř dimenzí (dodavatel, díl, měsíc, rok). Hvězdné schéma je založeno na tabulce faktů. Tabulka faktů obsahuje sloupec udávající množství dodávky a také sloupce udávající cizí klíče pro všechny tabulky rozměrů. Každá dimenze krychle je reprezentována tabulkou hodnot, která je odkazem ve vztahu k tabulce faktů. Pro uspořádání úrovní zobecnění informací jsou kategorické vstupy uspořádány nad referenčními knihami měření (například „materiál-část“, „město dodavatele“).

Důvod, proč diagram na Obr. 3.12 se nazývá „hvězda“, což je zcela zřejmé. Konce hvězdy jsou tvořeny tabulkami dimenzí a jejich spojení s tabulkou faktů umístěnou uprostřed tvoří paprsky. S touto databázovou strukturou je většina dotazů obchodní analýzy kombinována centrální stůl fakta s jednou nebo více tabulkami dimenzí. Například dotaz na získání objemu zásilek všech dílů v roce 2004 podle měsíců v členění podle dodavatele vypadá takto:

SELECT SUM(VALUE), SUPPLIER.SUPPLIER_NAME, FACT.MONTH_ID

ZE SKUTEČNOSTI, DODAVATELE

WHERE FACT.YEAR_ID=2004

A FACT.SUPPLIER_CODE=KÓD DODAVATELE

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

Na Obr. Obrázek 3.13 ukazuje část zprávy vygenerované jako výsledek zadaného požadavku.

Analytické technologie podnikových procesů

Kombinují se systémy Business Intelligence (BI). různé prostředky a technologie pro analýzu a zpracování dat v podnikovém měřítku. Na základě těchto nástrojů jsou vytvářeny BI systémy, jejichž účelem je zkvalitnění informací pro rozhodování managementu.

BI zahrnuje softwarové produkty následujících tříd:

· online systémy analytického zpracování (OLAP);

· nástroje pro dolování dat (DM);

Softwarové produkty každé třídy provádějí specifickou sadu funkcí nebo operací pomocí speciálních technologií.

OLAP (On-Line Analytical Processing) - online analytické zpracování - není název konkrétního produktu, ale celé technologie. Koncept OLAP je založen na vícerozměrné reprezentaci dat.

12 kritérií technologie OLAP, která se následně stala hlavním obsahem nové a velmi perspektivní technologie.

Později byly vyvinuty do testu FASMI, který definuje požadavky na produkty OLAP:

· Rychle, rychle). Aplikace OLAP musí poskytovat minimální dobu přístupu k analytickým datům – v průměru asi 5 sekund;

· ANALÝZA (analýza). Aplikace OLAP musí uživateli umožnit provádět numerickou a statistickou analýzu;

· SHARED (sdílený přístup). Aplikace OLAP musí umožnit mnoha uživatelům pracovat s informacemi současně;

· MULTIDIMENSIONAL (multidimenzionálnost);

· INFORMACE (informace). Aplikace OLAP musí uživateli umožnit získat nezbytné informace, bez ohledu na to, v jakém elektronickém datovém úložišti se nachází.

Na základě FASMI lze uvést následující definici: OLAP aplikace - jedná se o systémy pro rychlý víceuživatelský přístup k vícerozměrným analytickým informacím s numerickými a Statistická analýza.

Hlavní myšlenkou OLAP je sestavení multidimenzionálních krychlí, které budou dostupné pro uživatelské dotazy. Vícerozměrné krychle (obr. 5.3) jsou sestaveny na základě zdrojových a agregovaných dat, která mohou být uložena v relačních i vícerozměrných databázích. Proto se v současnosti používají tři způsoby ukládání dat: MOLAP (Multidimenzionální OLAP), ROLAP (relační OLAP) a HOLAP (Hybridní OLAP).



V souladu s tím jsou produkty OLAP rozděleny do tří podobných kategorií na základě způsobu ukládání dat:

1. V případě MOLAP jsou zdrojová a vícerozměrná data uložena ve vícerozměrné databázi nebo ve vícerozměrné lokální krychli. Tento způsob ukládání poskytuje vysoká rychlost provádění operací OLAP. Ale multidimenzionální základ v tomto případě bude nejčastěji nadbytečný. Kostka postavená na jejím základě bude velmi záviset na počtu rozměrů. S rostoucím počtem rozměrů se bude objem krychle zvětšovat exponenciálně. Někdy to může vést k explozi dat.

2. V produktech ROLAP jsou zdrojová data uložena v relačních databázích nebo v plochých lokálních tabulkách na souborovém serveru. Souhrnná data lze umístit do tabulek služeb ve stejné databázi. Převod dat z relační databáze do vícerozměrné kostky dochází na žádost nástroje OLAP. V tomto případě bude rychlost sestavení krychle značně záviset na typu zdroje dat.

3. V případě použití hybridní architektury zůstávají zdrojová data v relační databázi a agregáty jsou umístěny v té multidimenzionální. Kostka OLAP je vytvořena na žádost nástroje OLAP založeného na relačních a vícerozměrných datech. Tento přístup zabraňuje prudkému nárůstu dat. V tomto případě je možné dosáhnout optimální doby realizace požadavků klienta.

Pomocí technologií OLAP může uživatel provádět flexibilní prohlížení informací, získávat různé datové řezy, provádět analytické operace detailingu, konvoluce, end-to-end distribuce, porovnávání v čase, tzn. sestavovat a dynamicky publikovat zprávy a dokumenty.

Po mnoho let informační technologie zaměřené na budování systémů pro podporu zpracování podnikových transakcí. Takové systémy musí být vizuálně odolné vůči poruchám a musí poskytovat rychlou odezvu. Efektivní řešení Byl poskytnut OLTP, který se zaměřil na prostředí distribuované relační databáze.

Novějším vývojem v této oblasti bylo přidání architektury klient-server. Pro vývoj aplikací OLTP bylo publikováno mnoho nástrojů.

Přístup k datům často vyžadují jak aplikace OLTP, tak informační systémy pro podporu rozhodování. Bohužel pokus o obsluhu obou typů požadavků může být problematický. Některé firmy proto zvolily cestu rozdělení databáze na typ OLTP a typ OLAP.

OLAP (Online Analytical Processing - operativní analytické zpracování)- Tento informačního procesu, která umožňuje uživateli dotazovat se na systém, provádět analýzu atd. PROTI provozní režim(online). Výsledky jsou generovány během několika sekund.

Na druhou stranu v systému OLTP jsou obrovské objemy dat zpracovávány tak rychle, jak jsou přijímány jako vstup.

Systémy OLAP jsou určeny pro koncové uživatele, zatímco systémy OLTP jsou určeny pro profesionální uživatelé JE. OLAP zahrnuje činnosti, jako je generování dotazů, dotazování ad hoc zpráv, provádění statistických analýz a vytváření multimediálních aplikací.

Poskytování OLAP vyžaduje práci s datovým skladem (nebo vícerozměrným skladem) a také sadou nástrojů, obvykle vícerozměrných schopností. Těmito nástroji mohou být dotazovací nástroje, tabulky, nástroje pro dolování dat ( Dolování dat), nástroje pro vizualizaci dat atd.

Koncept OLAP je založen na principu vícerozměrné reprezentace dat. E. Codd zkoumal nedostatky relačního modelu, především poukázal na nemožnost kombinovat, nahlížet a analyzovat data z pohledu více dimenzí, tedy pro podnikové analytiky nejsrozumitelnějším způsobem, a určil Obecné požadavky Na OLAP systémy, rozšiřující funkčnost relačních DBMS včetně vícerozměrná analýza jako jednu z jeho vlastností.

Zkratka OLAP ve velkém množství publikací označuje nejen vícerozměrný pohled na data, ale také uložení dat samotných do vícerozměrné databáze. Obecně řečeno to není pravda, protože Codd sám poznamenává, že relační databáze byly, jsou a budou nejvhodnější technologií pro ukládání podnikových dat. Potřeba neexistuje v nová technologie DB, ale spíše v analytických nástrojích, které doplňují funkce stávajících DBMS a jsou dostatečně flexibilní, aby je mohly poskytovat a automatizovat odlišné typy intelektuální analýza vlastní OLAP.

Podle Codda je multidimenzionální koncepční pohled vícenásobná perspektiva skládající se z několika nezávislých dimenzí, podle nichž lze analyzovat specifické soubory dat. Simultánní analýza napříč více dimenzemi je definována jako multivariační analýza. Každá dimenze zahrnuje oblasti konsolidace dat sestávající z řady po sobě jdoucích úrovní zobecnění, kde každá vyšší úroveň odpovídá většímu stupni agregace dat pro odpovídající dimenzi. Dimenze Performer tedy může být určena směrem konsolidace, sestávající z úrovní zobecnění „podnik – divize – oddělení – zaměstnanec“. Dimenze Čas může dokonce zahrnovat dva směry konsolidace – „rok – čtvrtletí – měsíc – den“ a „týden – den“, protože počítání času po měsících a týdnech není kompatibilní. V tomto případě je možné libovolně vybrat požadovanou úroveň podrobností informací pro každý z rozměrů. Operace sestupu odpovídá pohybu z nejvyšších stupňů konsolidace k nejnižším; naopak zvedací operace znamená pohyb z nižší úrovně na nejvyšší.

Codd definoval 12 pravidel, která musí splňovat softwarový produkt třídy OLAP. Tato pravidla:

1. Vícerozměrná konceptuální reprezentace dat.

2. Průhlednost.

3. Dostupnost.

4. Stabilní výkon.

5. Architektura klient - server.

6. Rovnost měření.

7. Dynamické zpracování řídkých matic.

8. Podpora pro víceuživatelský režim.

9. Neomezená podpora pro vícerozměrné operace.

10. Intuitivní manipulace s daty.

11. Flexibilní mechanismus generování zpráv.

12. Neomezený počet dimenzí a úrovní agregace.

Soubor těchto požadavků, které sloužily jako skutečná definice OLAP, je třeba považovat za doporučení a konkrétní produkty posuzovat podle míry přiblížení se ideální plné shodě se všemi požadavky.

Dolování dat.

Data mining (DMA), neboli Data Mining, je termín používaný k popisu objevování znalostí v databázích, získávání znalostí, dolování dat, dolování dat, zpracování vzorků dat, čištění dat a dolování dat; To znamená i doprovodný software. Všechny tyto akce se provádějí automaticky a umožňují vám přijímat rychlé výsledky i neprogramátoři.

Požadavek podává koncový uživatel, popř přirozený jazyk. Požadavek je převeden do formátu SQL. SQL dotaz jde přes síť do DBMS, který spravuje databázi nebo úložiště dat. DBMS najde odpověď na požadavek a doručí ji zpět. Uživatel si pak může navrhnout prezentaci nebo zprávu podle svých požadavků.

Mnoho důležitých rozhodnutí v téměř jakékoli oblasti obchodní a sociální sféry je založeno na analýze rozsáhlých a komplexních databází. IBP může být v těchto případech velmi nápomocný.

Metody dolování dat úzce souvisí s technologiemi OLAP a technologiemi datových skladů. Proto nejlepší možnost je Komplexní přístup k jejich realizaci.

Aby stávající datové sklady usnadnily rozhodování managementu, musí být informace analytikovi předloženy v požadované podobě, to znamená, že musí mít vyvinuté nástroje pro přístup a zpracování dat skladu.

Velmi často se ukazuje, že informační a analytické systémy, vytvořené s očekáváním přímého použití osobami s rozhodovací pravomocí, jsou extrémně snadno použitelné, ale mají výrazně omezenou funkčnost. Takové statické systémy se nazývají výkonné informační systémy. Obsahují předdefinované sady dotazů, a přestože jsou dostatečné pro každodenní kontrolu, nedokážou odpovědět na všechny otázky o dostupných datech, které mohou při rozhodování vyvstat. Výsledkem takového systému jsou zpravidla vícestránkové zprávy, po jejichž pečlivém prostudování má analytik Nová epizoda otázky. Nicméně všichni nový požadavek, který se při návrhu takového systému nepředvídal, musí být nejprve formálně popsán, nakódován programátorem a teprve poté proveden. Čekací doba v tomto případě může být hodiny a dny, což není vždy přijatelné. Externí jednoduchost informačních systémů pro podporu statistického rozhodování, o kterou většina zákazníků informačních a analytických systémů aktivně bojuje, tak vede ke ztrátě flexibility.

Dynamické systémy pro podporu rozhodování se naopak zaměřují na zpracování neregulovaných (ad hoc) požadavků analytiků na data. Práce analytiků s těmito systémy spočívá v interaktivním sledu vytváření dotazů a studia jejich výsledků.

Dynamické systémy pro podporu rozhodování však mohou fungovat nejen v oblasti online analytického zpracování (OLAP). Podporu rozhodování managementu na základě nashromážděných dat lze provádět ve třech základních oblastech.

1. Rozsah podrobných údajů. Toto je rozsah většiny systémů pro vyhledávání informací. Ve většině případů se relační DBMS dobře vyrovnávají s úkoly, které zde vyvstávají. Obecně přijímaným standardem pro jazyk pro manipulaci s relačními daty je SQL. Informační – vyhledávače, poskytující rozhraní koncový uživatel v úlohách vyhledávání detailních informací, lze použít jako nadstavby jak nad jednotlivými databázemi transakčních systémů, tak nad nimi sdílené úložiště data.

2. Rozsah souhrnných ukazatelů. Úkolem systémů OLAP je komplexní pohled na informace shromážděné v datovém skladu, jejich zobecnění a agregace a vícerozměrná analýza. Zde se můžete buď zaměřit na speciální multidimenzionální DBMS, nebo zůstat v rámci relačních technologií. Ve druhém případě mohou být předem agregovaná data shromážděna v databázi ve tvaru hvězdy nebo může být agregace informací provedena v procesu skenování podrobných tabulek relační databáze.

3. Sféra vzorů. Intelektuální zpracování se provádí pomocí metod dolování dat, jejichž hlavními cíli je hledání funkčních a logických vzorců v nashromážděných informacích, sestavení modelů a pravidel, které vysvětlují nalezené anomálie a/nebo předpovídají vývoj určitých procesů.

Kompletní struktura informační a analytický systém vybudovaný na bázi datového skladu je znázorněn na Obr. 3.2. V konkrétních implementacích jednotlivé komponenty toto schéma často chybí.

Obr.3.2. Struktura podnikového informačního a analytického systému.

OLAP (Online Analytical Processing) je informační proces, který umožňuje uživateli dotazovat se na systém, provádět analýzu atd. v provozním režimu (online). Výsledky jsou generovány během několika sekund.

OLAP systémy jsou určeny pro koncové uživatele, zatímco OLTP systémy jsou určeny pro profesionální uživatele IS. OLAP zahrnuje činnosti, jako je generování dotazů, dotazování ad hoc zpráv, provádění statistických analýz a vytváření multimediálních aplikací.

Poskytování OLAP vyžaduje práci s datovým skladem (nebo vícerozměrným skladem) a také sadou nástrojů, obvykle s vícerozměrnými možnostmi. Těmito nástroji mohou být dotazovací nástroje, tabulky, nástroje pro dolování dat, nástroje pro vizualizaci dat atd.

Koncept OLAP je založen na principu vícerozměrné reprezentace dat. E. Codd zkoumal nedostatky relačního modelu, především poukázal na nemožnost kombinovat, nahlížet a analyzovat data z pohledu více dimenzí, tedy pro podnikové analytiky nejsrozumitelnějším způsobem, a identifikoval obecné požadavky pro systémy OLAP, které rozšiřují funkčnost relačních DBMS a zahrnují multidimenzionální analýzu jako jednu ze svých charakteristik.

12 pravidel, která musí splňovat softwarový produkt třídy OLAP. Tato pravidla:

1. Vícerozměrná konceptuální reprezentace dat.

2. Průhlednost.

3. Dostupnost.

4. Stabilní výkon.

5. Architektura klient - server.

6. Rovnost měření.

7. Dynamické zpracování řídkých matic.

8. Podpora pro víceuživatelský režim.

9. Neomezená podpora pro vícerozměrné operace.

10. Intuitivní manipulace s daty.

11. Flexibilní mechanismus generování zpráv.

12. Neomezený počet dimenzí a úrovní agregace.

Soubor těchto požadavků, které sloužily jako skutečná definice OLAP, je třeba považovat za doporučení a konkrétní produkty posuzovat podle míry přiblížení se ideální plné shodě se všemi požadavky.


Data Mining a Knowledge Mining. Správa a analýza velkých objemů dat ( Velká data). Business intelligence systémy (BI).

Data mining (DMA) je obecný termín pro aktivní analýzu dat. matematické metody a algoritmy (optimalizační metody, genetické algoritmy, rozpoznávání vzorů, statistické metody, Data Mining atd.), s využitím výsledků aplikace metod pro vizuální prezentaci dat.



V obecný případ Proces IAD se skládá ze tří fází:

1) identifikace vzorů (bezplatné vyhledávání);

2) použití identifikovaných vzorů k predikci neznámých hodnot (prognóza);

3) analýza výjimek k identifikaci a interpretaci anomálií v nalezených vzorcích.

Někdy existuje mezistupeň kontroly spolehlivosti nalezených vzorů (fáze validace) mezi jejich objevením a použitím.

Všechny metody IDA, založené na principu práce se zdrojovými daty, se dělí do dvou skupin:

Techniky uvažování na základě případu – nezpracovaná data mohou být uložena v explicitní granulární formě a přímo použita pro predikci a/nebo analýzu výjimek. Nevýhodou této skupiny metod je složitost jejich použití na velké objemy data.

Metody pro identifikaci a použití formalizovaných vzorů, které vyžadují extrahování informací z primárních dat a jejich převod do nějakých formálních struktur, jejichž typ závisí na konkrétní metodě.

Data Mining (DM) je technologie pro objevování v „surových“ datech dříve neznámých, netriviálních, prakticky použitelných a interpretovatelných znalostí nezbytných pro rozhodování v různých oblastech lidské činnosti. Algoritmy používané při dolování dat vyžadují velké množství výpočtů, což bylo dříve limitujícím faktorem pro rozšířené praktická aplikace tyto metody však zvyšují produktivitu moderní procesory zmírnil závažnost tohoto problému.

Trh Business Intelligence se skládá z 5 sektorů:

1. produkty OLAP;

2. Nástroje pro dolování dat;

3. Nástroje pro budování datových skladů a datových vitrín;

4. Manažerské Informační systémy a aplikace;

5. Nástroje pro koncové uživatele pro dotazování a podávání zpráv.

V současné době můžeme mezi lídry podnikových BI platforem vyzdvihnout MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute a další (viz příloha B srovnávací analýza nějaký funkčnost BI systémy).