Examination of principal component analysis on hierarchical clustering methods in terms of dimension reduction
[ X ]
Tarih
2022
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Adana Alparslan Türkeş Bilim ve Teknoloji Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Teknolojik ve bilimsel gelişmeler ışığında, yapay zeka ve makine öğrenimi gibi kavramların da hayatımıza girmesiyle birlikte, dünyada veri üretimi ciddi bir şekilde katlanarak artmaktadır. Buna paralel olarak veri; alınıp, işlenip, anlamlı ve önemli bilgiye çevrilerek satılabilen değerli bir maden haline gelmiştir. Verinin, bu denli hızlı ve çok fazla artışı, bilgiye dönüştürülme sürecinde pek çok zorluğa neden olmaktadır. Bu zorlukların başında, analiz edilecek verilerin çok yüksek boyutlarda ya da çok büyük miktarlarda olması gelmektedir. Verinin bu özellikleri uygulanan analiz tekniğinin doğru ve rahat çalışmasını zorlaştırır. Bu olumsuzluklarla başa çıkabilmek için verinin işlenme öncesi aşamalarında uygulanan pek çok yöntem mevcuttur. Bu tez çalışmasının amacı, yüksek boyutlu veri setlerinde Temel Bileşen Analizi yönteminin Hiyerarşik Kümeleme teknikleri üzerindeki boyut indirgeme etkisinin incelenmesidir. Çalışma, Birleşmiş Milletler veri platformu üzerinden 2020 verileriyle oluşturulan, 22, 38 ve 46 değişkenli veri setleri üzerinde, Temel Bileşen Analizi ve Hiyerarşik Kümeleme yöntemleri kullanılarak gerçekleştirilmiştir. Analizlerden elde edilen sonuçlar tanglegramlar ve bazı benzerlik katsayıları kullanılarak karşılaştırılmış ve yorumlanmıştır. Çalışmanın sonuçları Temel Bileşen Analizi yönteminin düşük korelasyon ve aykırı değerlere rağmen hiyerarşik kümeleme sonuçları ve dendrogramlar üzerinde olumlu etkiler yarattığını göstermiştir.
In the light of technological and scientific developments, with the introduction of concepts such as artificial intelligence and machine learning into our lives, data production in the world is increasing exponentially. Parallel to this, data has become a precious mine that can be bought, processed, converted into meaningful and important information, and sold. This rapid and huge increase causes many difficulties in the process of transforming data into information. One of these difficulties is that the data to be analyzed is too large or too dimensional. These features of the data make it difficult for the applied analysis technique to work correctly and comfortably. To cope with these problems, there are many methods applied in the pre-processing stages of data. This thesis study purposes examine the effect of the Principal Component Analysis method on Hierarchical Clustering techniques in terms of dimensionality reduction in high-dimensional data sets. The study was carried out using Principal Component Analysis and Hierarchical Clustering methods on the data sets with 22, 38, and 46 variables, created with 2020 data from the United Nations data platform. The results obtained from the analysis were compared and interpreted using tanglegrams and some similarity coefficients. The results of the study showed that the Principal Component Analysis method had positive effects on hierarchical clustering results and dendrograms despite low correlation and outliers.
In the light of technological and scientific developments, with the introduction of concepts such as artificial intelligence and machine learning into our lives, data production in the world is increasing exponentially. Parallel to this, data has become a precious mine that can be bought, processed, converted into meaningful and important information, and sold. This rapid and huge increase causes many difficulties in the process of transforming data into information. One of these difficulties is that the data to be analyzed is too large or too dimensional. These features of the data make it difficult for the applied analysis technique to work correctly and comfortably. To cope with these problems, there are many methods applied in the pre-processing stages of data. This thesis study purposes examine the effect of the Principal Component Analysis method on Hierarchical Clustering techniques in terms of dimensionality reduction in high-dimensional data sets. The study was carried out using Principal Component Analysis and Hierarchical Clustering methods on the data sets with 22, 38, and 46 variables, created with 2020 data from the United Nations data platform. The results obtained from the analysis were compared and interpreted using tanglegrams and some similarity coefficients. The results of the study showed that the Principal Component Analysis method had positive effects on hierarchical clustering results and dendrograms despite low correlation and outliers.
Açıklama
Fen Bilimleri Enstitüsü, Endüstri Mühendisliği Ana Bilim Dalı, Yöneylem Araştırması Bilim Dalı
Anahtar Kelimeler
Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering ; İstatistik