Hurtownia danychm jak i na czym, długawe
Jacek Czapla - 24-12-2006 00:36
Hurtownia danychm jak i na czym, długawe
Witam Zastanawiam się nad hurtownią danych dla firmy produkcyjnej. Hurtownia w założeniu ma zbierać dane z procesów technologicznych dla późniejszych analiz.
W fabryce jest kilka różnych systemów informatycznych (dla różnych części procesu wytwóczego). Jest system z bazą na BDF-ach (bardzo mała, 2-3 tabele), będzie niedługo coś na Firebird i jest kilka moich rzeczy na MSDE (główne źródło dla hurtowni).
Dla produktu gotowego istotne są dane ze wszystkich tych baz, dlatego pomysł na hurtownię, która zbierałaby okresowo dane ze wszystkich pozostałych baz i udostępniała spójny zbiór danych dla analiz.
Jako RDBMS zdecydowałem się wstępie na Postrgresa na jakimś linuksie (właśnie na jakim najlepiej?, choć to chyba drugorzędna sprawa, system tylko dla bazy) głównie ze względów ekonomicznych.
Mam niejaki mętlik jak rozwiązać kopiowanie danych z innych baz. Czy zostawiać oryginalne PK i tworzyć dodatkowo własne? Jeśli np. tabelka DBF ma pola id, data, i jeszcze 4 liczby to w mojej hurtowni lepiej to tylko przepisać czy dać swój PK a oryginalny potraktować jako jakiś index?
Dodatkowo problem jest taki, że poszczególne bazy (DBF, Firebird i MSDE) zawierają dane, które nie są ze sobą połączone. Etap łączenia dancyh z różnych baz (np. wyciagnięcie produktu z MSDE, przypisanie mu części danych z DBF - Firebirda wg daty wyprodukowanie) powinien chyba nastąpić przy eksporcie danych do hurtowni, tak, żeby miec w hurtowni dane ze wszystkich systemów połączone z produktem (analizy będą wykonywane głównie dla produktów)? Czy może lepiej trzymać w hurtowni luźne dane, a łączyć je dopiero przy analizach?
-- *Jacek Czapla* //usuń ".pułapka" z adresu email www.ASIT.pl http://www.busyonline.pl - Rezerwacja miejsc w busach
gg - 24-12-2006 00:36
> Dodatkowo problem jest taki, że poszczególne bazy (DBF, Firebird i MSDE) > zawierają dane, które nie są ze sobą połączone. Etap łączenia dancyh z > różnych baz (np. wyciagnięcie produktu z MSDE, przypisanie mu części > danych z DBF - Firebirda wg daty wyprodukowanie) powinien chyba nastąpić > przy eksporcie danych do hurtowni, tak, żeby miec w hurtowni dane ze > wszystkich systemów połączone z produktem (analizy będą wykonywane > głównie dla produktów)? > Czy może lepiej trzymać w hurtowni luźne dane, a łączyć je dopiero przy > analizach?
witam,
business intelligence to dziedzina ktora zawiera odpowiedzi na te pytania. Sposobow rozwiazan zastosowanych w ładowaniu hurtowni danych moze byc bardzo duzo.
Generalnie radze zasiegnac troche teorii - przede wszystkim o procesie ETL, architekturach hurtowni danych i ogolnie o BI. W internecie mozna znalezc mnostwo informacji po angielsku na ten temat. Dobrym zrodlem po polsku jest http://etl-tools.info/pl/
Pozdrawiam, GG
allerune - 24-12-2006 00:36
gg napisał(a):
>> Czy może lepiej trzymać w hurtowni luźne dane, a łączyć je dopiero przy >> analizach?
hurtownia danych zawiera zwykle dane zdenormalizowane, co bardzo zwiększa efektywność wykonywanych zapytań
> Generalnie radze zasiegnac troche teorii - przede wszystkim o procesie > ETL, architekturach hurtowni danych i ogolnie o BI. > W internecie mozna znalezc mnostwo informacji po angielsku na ten > temat. > Dobrym zrodlem po polsku jest http://etl-tools.info/pl/
to jest dobre źródło? przecież tam nic nie ma... stronka ma trochę tekstu i żeruje na reklamach googla
polecam książkę Kimballa "data warehouse toolkit" - to obowiązkowa lektura jeśli chodzi o tematykę teorii hurtowni danych
pozdrawiam allerune
hubert depesz lubaczewski - 24-12-2006 00:36
On 2006-12-10, Jacek Czapla <jczapla.pulapka@asit.pl> wrote: > Jako RDBMS zdecydowałem się wstępie na Postrgresa na jakimś linuksie > (właśnie na jakim najlepiej?, choć to chyba drugorzędna sprawa, system > tylko dla bazy) głównie ze względów ekonomicznych.
linuks - jaki lubisz. ja osobiście stawiam debiany na x86 i centosa na amd64.
> Mam niejaki mętlik jak rozwiązać kopiowanie danych z innych baz. Czy > zostawiać oryginalne PK i tworzyć dodatkowo własne? Jeśli np. tabelka > DBF ma pola id, data, i jeszcze 4 liczby to w mojej hurtowni lepiej to > tylko przepisać czy dać swój PK a oryginalny potraktować jako jakiś index?
moja sugestia - kopiuj dane ze źródeł do twojej "na żywca" - tak jak są. a dopiero potem mając je w jednej bazie rozkładaj je po innych tabelach w/g tego co ci będzie potrzebne. co prawda zajmie to więcej miejsca, ale będzie wygodniejsze w pisaniu.
depesz
-- http://www.depesz.com/ -> nowy, jeszcze lepszy, depesz
zanotowane.pldoc.pisz.plpdf.pisz.pleffulla.pev.pl
|
[MSSQL2000] Problem z =?ISO-8859-2?Q?tabel=B1/indeksem/zapytanie?==?ISO-8859-2?Q?m_czy_b=B3=B1d_w_bazie_danych=2E=2E=2E?=
=?iso-8859-2?Q?=5BMySQL=5D_Wy=B6wietlenie_wszystkich_rekordow _zawierajacy?==?iso-8859-2?Q?ch_duplikat_a__moze_inna_struktura_bazy_danych ?=
Konwesja znaków w dump'ie bazy danych - ISO -> utf-8 -> ISO -> utf-8
[laik]Jak =?ISO-8859-2?Q?stworzy=E6/zaczac_tworzyc__ma=B3=B1?==?ISO-8859-2?Q?__baz=EA_danych_na_potrzeby_www=3F?=
[mysql] przenoszenie danych =?ISO-8859-2?Q?mi=EAdzy_tabelami_?==?ISO-8859-2?Q?w_r=F3=BFnych_bazach?=
Ksiazka - "Podstawowy =?ISO-8859-2?Q?wyk=B3ad_z_system=F3w_?==?ISO-8859-2?Q?baz_danych=22?=
Zrywanie =?ISO-8859-2?Q?po=B3aczen_z_baza_danych_-_pos?==?ISO-8859-2?Q?tgresql_=3C-=3E_odbc?=
Połączenie bazy danych z wykonaniem polaczenia telefonicznego
[mssql] insert do tabeli na podstawie danych z innej tabeli
[oracle] Baza danych do kursy Introduction to Oracle9i:PL/SQL ? Skąd ją pobrać ?
zanotowane.pldoc.pisz.plpdf.pisz.planette.xlx.pl
Cytat
Decede mihi sole - nie zasłaniaj mi słonca. Gdy kogoś kochasz, jesteś jak stworzyciel świata - na cokolwiek spojrzysz, nabiera to kształtu, wypełnia się barwą, światłem. Powietrze przytula się do ciebie, choćby był mróz, a ty masz w sobie tyle radości, że musisz ją rozdawać wokoło, bo się w tobie nie mieści Hoc fac - tak czyń. A tergo - od tyłu; z tyłu. I czarne włosy posiwieją. Safona |
|