Blog

VERİ AMBARINDA KURUMSAL VERİ MODELİNİN OLUŞUMU

Veri ambarın da kurumsal veri modelinin oluşturulması, farklı ve birbirinden bağımsız sistemlerden gelen verileri yapısına alarak bütünleşik olarak sunması sayesinde çok önem taşır iken, aşağıda belirtilen kazanımları da sağlar:

- Operasyonel sistemlerde tarihsel olarak tutulamayan veriyi gecmişe dönük olarak sunmayı sağlar.
- Kurumun farklı ve birbirinden bağımsız sistemlerinden toplanmış verilerini içinde tutar, bu sayede bilgiye erişimi tek noktadan sağlar.
- Operasyonel sistemlerden performans nedeni ile alınamayan raporların kolayca alınabilmesini, çeşitli analiz ve raporlama araçları ile entegre edildiğinde son kullanıcılar için etkin bir veri erişim ortamı sağlar.
- Veri ambarı, operasyonel sistemlerden bağımsız olduğu için çok karmaşık sorguları çok hızlı bir şekilde gerçekleştirmekte ve geçmişe yönelik büyük veriyi tutabilmesinden dolayı Veri Madenciliği çalışmalarında büyük önem arz eder.
- Çeşitli operasyonel iş uygulamaları için çok önem arz eden analitik çalışmalarda kullanılan verilerin daha kolay hazırlanmasını sağlayarak, özellikle müşteri ilişkileri yönetimi, churn analizleri, trend analizleri ve risk skorlama uygulamaları için, değerli bilgiler üretilmesini sağlar.
- Veri tutarlılığı ve veri doğrulama çalışmalarıyla kaynak sistemlerdeki verilerin düzeltilmesine olanak sağlayarak, kurum içerisinde üretilen verinin kalitesinin artmasını sağlar.

Yukarıda belirtilen yararları sağlayabilmek adına yapılan veri ambarı modelleme projelerine baktığımızda uzun soluklu, çok fazla efor isteyen ve paydaşlarının fazla olduğu çalışmalar olduğunu görürüz. Teknik anlamda tüm şartlar yerine getirilse dahi projenin zaman planı iyi yapılmadığında ve çıktılarının neler olacağı doğru netleştirilmediğinde maalesef projenin başarılı ya da başarısız olduğunu dair sonuçlar geç görülür.

Modelleme projellerinin başarısı; mevcut mimari yapıya bağlı olan bir modelleme yaklaşımının seçilmesi ve kurumun genelinde duyulan ihtiyaçların net belirlenmesine bağlıdır. Veri ambarlarında modellemede en yaygın kullanılan yaklaşımların bilinmesi önemlidir. Aşağıda bahsedilen yaklaşımlardan yola çıkarak veri ambarı modellenmesinde çok sık kullanılan 2 kavramdan söz edebiliriz:

- Boyutsal Yaklaşım (Kimball Metodu)
- Normalize Yaklaşımı (Inmon Metodu)


BOYUTSAL YAKLAŞIM 

Boyutsal yaklaşım da Star Schema (Yıldız) veya Snowfleak Schema (Kar tanesi) şema modelleri kullanılır.

Fact (Olgu) adı verilen ve genellikle sayısal değerlerden oluşan ve Dimension (Boyut) adı verilen ve içerisinde Facts bağlanan referans bilgilerini tutan tablolardan oluşur. Fact tablosu Metric (Ölçüt) ve Measures (Kriterler) den oluşmaktadır ve etrafında Metriclere bağlanıp boyut oluşturacak tabloların ortasında bulunması nedeniyle bu yapıya Star (Yıldız) şema veya Snowfleak (Kar tanesi) şeması denmektedir. Snowfleak şemasının Star şemasından farkı direk olarak fact tabloya bağlı olmadan diğer bir dimension tabloya bağlı olan, farklı dimensionların bulunmasıdır. Fact tablosunda Dimension tabloların primary key alanları yer alır ve bu alanlar ile ilişkilendirilir. Ayrıca bu anahtar alanların dışında Measures adı verilen içerisinde kümelenmiş veriler bulunduran hesaplanmış alanlar bulunmaktadır. Bu hesaplanmış alanlar; içlerinde yer alansum, average, min, max, count vb. kümeleme fonksiyonu sonucunda oluşurlar.

Dimension Table ise her bir veri yapısını sınıflandırarak, her veriyi diğerleriyle örtüşmeyecek şekilde ayrıştırır. Bu tablolarda primary key bazında veriler bulunmaktadır. Dimension tabloları primary key ile fact tablosunun kendi foreign keyine bağlanarak star veya snowfleak şekli oluştururlar. Bu sayede Fact tablosundan herhangi bir boyutla alakalı detaya ulaşılmak istendiğinde, dimension tablolarda oluşturulan bu ilişki ile detay bilgiye erişim sağlanabilmektedir.




 

NORMALİZE YAKLAŞIM

Bu yaklaşımda veritabanı normalizasyon kurallarına göre veriler depolanmaktadır. Tablolar, genel veri sınıflarını yansıtan konu başlıklarına göre gruplanır. Normalize yapı, verileri ilişkisel bir veritabanında bir kaç tablodan oluşan entities (varlıklara) böler. Bu yapı büyük kurumsal yapılarda uygulandığında, birbirleriyle bağlantılı düzinelerce tablodan oluşan bir ağ yapısı oluşturmaktadır. Bu yaklaşımın asıl faydası, her yeni verinin basit bir şekilde veritabanına eklenebilmesidir, ancak bununla birlikte her yeni veri ile veritabanındaki tablo sayıca da artmaktadır. Bu nedenle farklı kaynaklardan verilerin alınması sırasında çok fazla tablo bağlantısının kurulması ve bilgiye erişimdeki zorluk, bu yaklaşımın kullanımında sıkıntılara neden olmaktadır.

Aslında iki yaklaşım da kendi içerisinde normalize bir yapıya sahiptir ve ikisinde de tablolar bir ilişki yapısı ile birbirine bağlıdır. Aralarındaki tek fark normalizasyonun derecesidir. Boyutsal yaklaşımda genellikle 1. Normal Form kullanılırken, Normalize yaklaşımda en düşük normalize derecesi 3. Normal Form kullanılmaktadır.





DATAMART
 
Çok kapsamlı veri yapıları üzerinden iş birimlerinin ihtiyaçlarına göre konumlandırılarak çeşitli varyasyonlar sonucu oluşan veri alt kümelerine datamart denir.

Datamartlar bağımlı ve bağımsız olmak üzere 2 farklı yapıda oluşturulabilinir.

Bağımsız datamartlar direk operasyonel sistemlerden gelen verilerle oluşturulur. Bağımlı datamartların ise kaynağı veri ambarlarıdır. Büyük veriler üzerinde karar vericilerin tarihsel olarak kolayca dip toplamlara ulaşarak değerlendirme yapmalarına imkan sağlar. Diğer yandan bağımsız datamartların operasyonel sistemden oluşturulması esnasında farklı veri grupları içerisinde tutarlılığı sağlamak kolay değildir. Kurumsal veri modelinin tasarlanması esnasında tüm parametreler mutlaka ele alınmalıdır, diğer türlü beklenen performansı elde etmek mümkün olmayacaktır.


Ümit Gökyokuş

 
KOMTAŞ Bilgi Yönetimi - Teknik Müşteri Yöneticisi
 
Veri Yönetimi ve Analitik Uygulamalar alanında uzman, bağımsız bir bilgi teknolojileri şirketi olan KOMTAŞ Bilgi Yönetimi'nde, Veri Yönetimi iş alanından sorumlu Teknik Müşteri Yöneticisi olarak görev yapan Ümit Gökyokuş, kariyerine, Pamukbank A.Ş.'de Kredi Kartları Departmanı'nda Yazılım Geliştirme Uzmanı olarak başlamış, daha sonra Türk Telekom'da sırasıyla Yazılım Geliştirme, Datawarehouse Proje Müdürü, Datawarehouse İş Zekası ve Veri Yönetimi Müdürü olarak devam etmiştir. 2006 yılında Türk Telekom'daki ilk veri ambarını kurma görevinden sonra 2012 de, veri ambarı migration ve veri ambarı veri modeli transformasyon projelerinden sorumlu olmuştur.
Türkiye'nin en büyük bilişim şirketi Türk Telekom'daki 16 yıllık veri yönetimi deneyiminin ardından, şirketlerin ihtiyaçlarına göre uçtan uca veri ambarı alanında doğru ürün ve çözümleri oluşturmak adına KOMTAŞ Bilgi Yönetimi'nde veri yönetimi iş alanını yönetecek olan Sayın Ümit Gökyokuş, aynı zamanda Türkiye'deki tek resmi distribütörü'nün KOMTAŞ Bilgi Yönetimi olduğu Informatica teknolojilerinin teknik satışından da sorumludur. İstanbul Teknik Üniversitesi, Elektrik ve Elektronik Mühendisli'ğinden mezun olan Gökyokuş, 2 çocuk annesidir.