Veri Bilimi ve Veri Analitiği Sözlüğü

Veri Gölü (Data Lake) Nedir?

Informatica
Teradata

Veri Gölü (Data Lake) Nedir?

Veri gölü ve veri ambarı aynı tasarım kalıplarını kullanıyor olmasına rağmen zıt özelliklere sahiptir. Veri ambarları verileri kalite, tutarlılık, yeniden kullanım ve yüksek performans için verileri yapılandırır ve paketler. Veri gölleri ise, yeni bir analitik çeviklik biçimi sağlarken düşük maliyetle orijinal ham veri doğruluğuna ve uzun vadeli depolamaya odaklanan bir tasarım modeliyle veri ambarlarını tamamlar.

Veri Gölleri Neden Önemlidir?

Veri gölleri giderek artan veri hacimlerinden ekonomik biçimde yararlanma ve değer elde etme ihtiyacını karşılar. Web, cep telefonu, bağlı cihazlar gibi yeni kaynaklardan elde edilen bu “karanlık”(dark data) veriler geçmişte sıklıkla göz ardı edilmiştir, ancak bu veriler değerli içgörüler içerir. Büyük hacimli veriler ve yeni analiz biçimleri verileri yönetmek ve bu verilerden değer elde etmek için yeni yollar keşfetme ihtiyacını doğurmuştur.

Veri gölü, her türlü ham veriyi uygun ölçekte yakalayan, temizleyen ve araştıran uzun vadeli veri konteynırlarının toplandığı yerdir. Veri alt kümeleri (data mart), veri ambarları ve öneri motorları da dahil, birçok aşağı akım olanağının faydalanabileceği düşük maliyetli teknolojiler ile çalıştırılır.

Büyük veri trendinden önce veri entegrasyonu bir çeşit süreklilikte – veri tabanı gibi – bilgileri normalleştirmiş ve bu değeri yaratmıştır. Bu artık, işletmedeki tüm verileri tek başına yönetmek için yeterli değildir ve bunu yapılandırmaya çalışmak değeri tamamen zayıflatır. Bu nedenle karanlık veriler bir veri tabanında nadiren yakalanır, ancak veri bilimcileri genellikle tekrarlamaya değer birkaç gerçek bulmak için karanlık verileri araştırırlar.

Teradata Vantage Çözümlerini Keşfedin!

Veri Gölü ve Yeni Analiz Biçimleri

Spark gibi teknolojiler ve diğer yenilikler programlama dillerinin paralelleştirilmesine olanak sağlar ve bu tamamen yeni bir analiz türünün ortaya çıkmasını sağlamıştır. Bir yanıt alan, ardından bu yanıtı bir sonraki veri parçasıyla karşılaştıran ve nihai bir çıktıya ulaşılana kadar bu şekilde devam eden grafik, metin ve makine öğrenimi algoritmaları gibi bu yeni analitik biçimleri uygun ölçekte verimli bir şekilde işlenebilir.

Veri Gölü ve Kurumsal Belleğin Korunması

Uzunca bir süre kullanılmamış verileri arşivlemek veri ambarında saklama alanından tasarruf sağlayabilir. Veri gölü tasarım örüntüsü ortaya çıkana kadar, ara sıra erişilmek istenen soğuk verileri koymak için, yüksek performans gösteren veri ambarı veya offline teyp yedekleme birimi dışında başka bir alan yoktu. Sanal sorgulama araçları ile, kullanıcılar tek bir sorgulama ile veri ambarında ılık ve sıcak verilerle birlikte soğuk verilere de kolayca ulaşabilirler.

Veri Gölü ve Veri Entegrasyonu

Endüstri, veri dönüşüm maliyetlerinin en iyi şekilde nasıl azaltılacağı konusunda dönüp dolaşıp aynı yere gelmiştir. Veri gölü düşük maliyetle geleneksel ETL (çıkart, dönüştür, yükle) sunucularından daha fazla ölçeklenebilirlik sunarak şirketleri veri entegrasyonu mimarilerini bir kez daha düşünmeye zorlamaktadır. En iyi modern uygulamaları kullanan işletmeler veri gölü, veri ambarı ve ETL sunucularında yüzlerce veri entegrasyonu işini yeniden dengelemektedirler, çünkü her birinin kendine ait kapasiteleri ve ekonomileri vardır.

Veri Gölü Projelerinde Karşılaşılan Zorluklar

Görünüşte, veri gölleri çok büyük hacimlerdeki yapılandırılmış ve yapılandırılmamış verileri yönetme ve kullanma yolu sunduğu için basit gibi görünebilir. Ancak, göründükleri kadar basit değillerdir, ve başarısız veri gölü projeleri birçok endüstride ve kuruluşta yaygındır. İlk veri gölü projeleri zorluklarla karşılaşmışlardır çünkü en iyi uygulamalar henüz ortaya çıkmamıştı. Şimdi ise, veri göllerinin tam değerlerini verememelerinin temel nedeni sağlam bir tasarımın olmamasıdır.

Veri silosu ve kümesinin yaygınlaşması: Veri göllerinin girmek için düşük bariyere sahip olduğu ve bulutta geçici çözüm bulunabileceğine dair bir görüş vardır. Bu da gereksiz verilere ve iki veri gölünün uzlaşmaması sebebiyle ortaya çıkan tutarsızlığa ve ayrıca senkronizasyon sorunlarına neden olmaktadır.

Veri erişimi için çelişkili hedefler: Sıkı güvenlik önlemlerinin nasıl olması gerektiğinin belirlenmesi ile çevik erişim arasında dengeleyici bir hareket vardır. Tüm paydaşları hizalayan plan ve prosedürlerin olması gerekmektedir.

Sınırlı ticari kullanıma hazır araçlar: Birçok sağlayıcı Hadoop veya bulut nesne deposuna bağlandığını ileri sürmektedir, ancak yapılan teklifler derin entegrasyondan yoksundur ve bu ürünlerin büyük bir kısmı veri gölleri için veri ambarları için yapılmıştır.

Nihai kullanıcı kabulünün olmaması: Kullanıcılar – doğru ya da yanlış – üst düzey kodlama becerileri gerektirdiği için veri göllerinden cevap almanın çok karmaşık olduğu veya veri yığınları içerisinde aradıkları şeyi bulamadıkları algısına sahiptirler.

Veri Gölü Tasarım Örüntüsü

Veri gölü tasarım örüntüsü başarılı bir uygulamaya rehberlik eden bir dizi iş yükü ve beklenti sunmaktadır. Veri gölü teknolojisi ve deneyimi geliştikçe, bir mimari ve bununla ilgili gereklilikler öyle evrim geçirdi ki, önde gelen sağlayıcıların artık uygulamalar için anlaşmaları ve en iyi uygulamaları vardır. Teknolojiler önemlidir, ancak teknolojiden bağımsız olan tasarım örüntüsü en önemlisidir. Bir veri gölü birden çok teknoloji üzerine kurulabilir. Hadoop Dağıtılmış Dosya Sistemi (HDFS) birçok insanın ilk düşündüğü şeydir, ancak gerekli değildir.

sözlüğe geri dön

Veri Bilimi ve Veri Analitiği Sözlüğü'nü Keşfet

Bağlantı Analitiği (Connection Analytics) Nedir?

Bağlantı analitiği bir ağ içerisindeki insanlar, ürünler, süreçler, makineler ve sistemler arasındaki birbiriyle ilişkili bağlantıları ve etkileri, bu bağlantıları haritalandırarak ve bunlar arasındaki etkileşimleri sürekli izleyerek keşfetmeye yardımcı olan gelişmekte olan bir disiplindir.

DETAYLI İNCELE
Veri Analisti Ne Yapar?

Veri analistlerinin temel görevleri verileri toplamak, işlemek ve analiz etmek ve ayrıca grafik, şema, tablo ve diğer görsellerden oluşabilecek raporlar hazırlamaktır.

DETAYLI İNCELE
Cascading Nedir?

Cascading büyük veri uygulamalarını Hadoop üzerinde geliştirmek için kullanılan bir platformdur.

DETAYLI İNCELE
REFERANSLARIMIZ

Başarılı İş Ortaklarımıza Katılın!

Sektöründe öncü 120'den fazla şirket ile 200'den fazla başarılı proje geliştirerek Türkiye'nin alanında lider şirketleri ile çalışıyoruz.
Siz de başarılı iş ortaklarımız arasındaki yerinizi alın.

İlETİŞİM FORMU

Sizi Tanımak için Sabırsızlanıyoruz

Formu doldurarak çözüm danışmanlarımızın tarafınıza en hızlı şekilde ulaşmasını sağlayın.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
İLETİŞİME GEÇ
BAŞARI HİKAYESİ

NISO Cloud Migration

HEMEN İZLE
HEMEN İNCELE
Bu internet sitesinde, kullanıcı deneyimini geliştirmek ve internet sitesinin verimli çalışmasını sağlamak amacıyla çerezler kullanılmaktadır. “Kabul Et” butonuna tıkladığınızda bu çerezlerin kullanılmasını kabul etmiş olursunuz. Çerezleri nasıl kullandığımız, sildiğimiz ve engellediğimiz ile ilgili detaylı bilgi için lütfen Gizlilik Politikası sayfasını okuyunuz.
Veri Bilimi ve Veri Analitiği Sözlüğü

Heading

Heading