Derinlemesine Veri Madenciliği: Yöntemler, Modeller ve Teknikler

Çağımızın popüler konularından biri olan veri madenciliği fark etmesek de günlük yaşantımızda sıkça karşımıza çıkıyor. Peki veri ile uğraşan kişiler hangi yöntemler, modeller ve tekniklerden yararlanarak karmaşık olan veri yapılarından anlamlı çıktılar elde ediyor? Gelin birlikte bakalım.

İlk önce öğrenme yöntemine değinelim. Veri madenciliğinde uygulamalar denetimli ve denetimsiz öğrenme olarak iki ana grupta yapılmaktadır.

Denetimli Öğrenme: Veri kümesinden bir öğrenme kümesi ayrılmaktadır ve bu küme ile model kurulmaktadır. Diğer taraftaki olan test kümesi ile de doğruluk araştırılmaktadır. Modelin doğruluğu tespit edildiğinde yeni gelen örnekler için model uygulanmaktadır. Veriden bilgi ve sonuç çıkarmaya yönelik kullanılmaktadır.

Denetimsiz Öğrenme: Veriyi anlamaya, tanımaya ve keşfetmeye yönelik olarak kullanılmaktadır. Daha önceden veri sınıfları belirli değildir ve verilerin özelliklerine göre sınıflar oluşturulmaktadır.

Modeller

Veri madenciliğinde modeller tahmin edici ve tanımlayıcı modeller olarak iki ana gruba ayrılmaktadır.

Tahmin Edici Modeller: Sonuçları belirli olan verilerden hareket edilerek model geliştirilmektedir ve bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç tahmin edilmektedir. Sınıflandırma ve Regresyon Analizi bu modeller için uygulanan tekniklerdir.

Örneğin bir bankanın önceki dönemlerde vermiş olduğu kredilere ilişkin gerekli verilerin elimizde olduğunu, içerisinde müşteri özellikleri ve kredilerin ödenip ödenmediğine ilişkin verilerin bulunduğunu düşünelim. Elimizde bulunan bu veriler ile model kurarak verilecek olan kredilerin müşteri özelliklerine göre geri ödenip ödenmeyeceğini tahmin edebiliriz.

Tanımlayıcı Modeller: Veri kümesinde bulunan gizli örüntüler tanımlanmaktadır. Özellikle bu modeller karar vermeye rehberlik etmektedir. Kümeleme Analizi, Birliktelik Kuralları ve Veri Görselleştirme bu modellerde kullanılan tekniklerdir.

Örneğin müşterilerin satın alma davranışlarına ve demografik özelliklerine göre kümelere ayrılması, belirli ürün veya ürünlerin daha etkili bir şekilde pazarlanmasına olanak tanımaktadır. Ayrıca küme içerisindeki bir müşterinin beğendiği bir ürün, aynı küme içerisinde bulunan başka müşterilere de tavsiye edilebilmektedir.

Teknikler ve Yöntemler

Sınıflandırma: Sınıflandırma tekniğinde veri seti daha önceden belirlenen sınıflara atanmaktadır. Burada istatistik ve makine öğrenimi temelli çeşitli sınıflandırma yöntemleri geliştirilmiştir. Bunlar:

1) Karar Ağaçları: Karar verici türlü seçeneklerinin gerçekleşmesinde belirli ya da belirsiz olan problemle ilgili en iyi karara ulaşmak için bu yöntemi kullanmaktadır. Geçmişte işletmeye en faydalı olan bireylerin özellikleri kullanılarak işe alım süreçlerinin belirlenmesi, tıbbi gözlem verilerinden yararlanılarak en etkin tedavi yöntemlerinin belirlenmesi karar ağacı yöntemlerinin kullanımına örnek verilebilir.

2) K-En Yakın Komşuluk: Bu yöntemde sınıflandırılmak istenen nesne, öznitelik özelliklerine göre kendisine en yakın komşu veya komşu sınıfına atanmaktadır.

3) Yapay Sinir Ağları: Bu yöntem insan beyninin yapısından yola çıkarak tasarlanmış, küçük hesaplama birimlerinden elde edilen sonuçları birleştirerek sonuçlandıran bir modelleme yöntemidir. Hata minimizasyonu dikkate alınmaktadır. Örneğin ülkelerin finansal ve politik durumlarının derecelendirilmesi, dolandırıcılık tespiti, yüz tanıma ve el yazısı tanıma gibi uygulamalarda yapay sinir ağı modelleri görülmektedir.

4) Destek Vektör Makineleri: Lineer ve Lineer olmayan verilerin sınıflandırılması ile ilgilenen yöntemdir. Zaman serisi analizi, konuşma tanıma, meme kanseri gibi birçok alanda uygulamaları görülmektedir.

5) Diskriminant Analizi: Yöntem birimleri ya da bireyleri sınıflamak için kullanılmaktadır. Bireyler gruplandırılır ve bu nedenle kümeleme analizi ile benzerlik gösterir. İki yöntemdeki temel farklılık diskriminant analizinde küme/grup sayısı bilinmekte ve bu sayı analiz süresince değişmemektedir. Kümeleme analizinde ise başlangıç küme sayısı bilinmemektedir. Diskriminant fonksiyonları gelecekte kullanılabilmektedir. Çok çeşitli uygulamalarda bu analiz türü başarılı olmuştur. Örneğin yüz tanıma sistemlerinde piksel sınıflandırmasında, işletmelerin iflas edip etmeyeceği konusunda başarılı tahminlerde bulunulmuştur.

6) Bayes Sınıflandırma: Olasılık ilkelerine göre sisteme sunulan verilerin sınıfı tespit edilmektedir. Ürün sınıflandırmasında, metin ayrıştırılmasında, hastalıkların tıbbi tanımlamalarda bu yöntem kullanılmaktadır.

Regresyon Analizi: Regresyon analizi bağımlı değişken ile bağımsız değişkenler arasındaki ilişkinin incelenmesini içermektedir. Neden sonuç ilişkilerini ortaya koymayı amaçlayan bu analiz türü bağımsız değişkenlerin bağımlı değişkenleri pozitif veya negatif yönde nasıl etkilediğini ortaya da koymaktadır. Örneğin bir dersten başarılı olmanın hangi değişkenlere bağlı olduğu ya da bir işyerinde çalışan kişinin aldığı ücreti hangi değişkenlerin etkilediği regresyon analizi ile belirlenebilmektedir. Yine örnek verilirse bu yöntemle yapılan modeller ile araba fiyat tahmini, alınacak ücret tahmini ya da ürünler için stok tahmini yapılabilmektedir.

Kümeleme Analizi: Kümeleme analizi veri setindeki birimleri birbirlerine benzer alt gruplara ayırma işlemidir. Alt gruplar küme olarak adlandırılır. Bu kümeler içinde bulunan birimler birbirlerine çok benzer özellik taşırken kümeler kendi aralarında farklı özelliktedir.

Örneğin müşteri gruplarının ortak karakteristik özelliklerinin belirlenmesinde, sosyal ağ analizi çalışmalarında büyük gruplar içerisinde birbirine benzer özelliğe sahip olan alt grupların ayırt edilmesinde, dosya ve web sitelerinin gruplanması süreçlerinde, genetik alanında popülasyon yapıları incelenirken insan genetik kümelemesinin gerçekleştirilmesinde, görüntü renklendirme ve işlemede, mekânsal veri madenciliği gibi çeşitli uygulamalarda kümeleme analizi görülmektedir.

Birliktelik Kuralları: Birliktelik kuralları, olayların birlikte gerçekleşme durumlarını analiz eden veri madenciliği tekniklerinden biridir. Veriler içerisinde birlikte hareket eden nesnelerin ve nesneler arasındaki bağlantıların keşfedilerek stratejilerin belirlenmesinde büyük bir rol oynamaktadır. Özellikle pazarlama amaçlı olarak sepet analizi kullanılmaktadır ve bu analiz ile birliktelik kuralları belirlenerek tüketici davranış modelleri oluşturulmaktadır.

Örneğin birliktelik kuralları ile marketler yağ alan müşterilerinin sebze de aldığını belirleyebilmekte ve reyonlarında düzenleme yapabilmektedir. Başka bir örnek ise kişilerin hangi yatırım araçlarını bir arada tercih ettiği birliktelik kuralları ile belirlenebilmektedir. Ayrıca Netflix dizi veya film tavsiyeleri, Spotify şarkı tavsiyeleri, online alışveriş yapılırken karşılaşılan ürün önerileri birliktelik kuralları ile yapılmaktadır.

Veri Görselleştirme: Veri görselleştirme verilerin daha kolay anlaşılmasını sağlamaktadır. Bunun için grafikler, haritalar, şekiller ve infografikler kullanılmaktadır. Görselleştirme sayesinde verideki eğilimleri, trendleri, değişkenlik veya benzerlikleri, verideki ortalamadan sapan birimleri ya da verilerin nerelerde ayrışıp nerelerde kümelendiği görülebilmektedir.

Kaynakça

Çelik, Mine (2009). Veri Madenciliğinde Kullanılan Sınıflandırma Yöntemleri ve Bir Uygulama, Yüksek Lisans Tezi, İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Ekonometri Anabilim Dalı, İstanbul 2009.

Gürsoy, U.,T.,Ş., (2017). Veri Madenciliğinde Güncel Yaklaşımlar, Web, Metin ve Multimedya Madenciliği, Büyük Veri ve Sosyal Medya Madenciliği, 1.Baskı, Çağlayan Kitabevi

Akpınar, H. (2017). Data, Veri Madenciliği, Veri Analizi, 2.Baskı, Papatya Yayıncılık

Veri Madenciliği

Eğer bu tarz konular hakkında daha fazla ilham veren içeriğe ulaşmak istersen Gooinn İnovasyon Bültenine abone olabilirsin. 🚀

Ek olarak bizi sosyal medya hesaplarımızdan takip edebilir veya info@gooinn.co mailinden bizlere her zaman ulaşabilirsiniz.