A novel two phased approach combining deep learning and machinelearning classifiers for effective detection of turkish phishing web sites
[ X ]
Tarih
2024
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Adana Alparslan Türkeş Bilim ve Teknoloji Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Son yıllarda internet hızının artması ve internete bağlı cihaz sayısının da paralel olarak artması ile birlikte online dolandırıcılık da önemli ölçüde artış göstermiştir. Saldırganlar, WhatsApp, e-posta, SMS, mobil bildirimler ve sosyal medya mesajları gibi platformları kullanarak dikkat çekici, ilgi çekici veya korkutucu içerikler yaymaktadırlar. Kullanıcıları bu içeriklere etkileşimde bulunmaya ve gömülü bağlantılara tıklamaya teşvik ederek, kötü niyetli aktörler kullanıcıları otantik sitelere çok benzeyen sahte web sitelerine yönlendirir ve bu şekilde kullanıcıların güvenli bilgilerini ele geçirir veya farklı yollarla menfaat temin eder. Bu tür aldatmaca işlemleri için hazırlanan ve "phishing" siteleri olarak adlandırılan bu kötü niyetli web sayfalarının, kullanıcıların erişiminden önce mobil uygulamalar veya tarayıcılar tarafından tespit edilmesi son derece önemlidir. Bu çalışma, oltalama sitelerini tanıma konusunda %98,4'lük bir başarı oranına ulaşmak için iki aşamalı bir yaklaşım önermektedir. Kullanılan veri seti, Ulusal Siber Olaylara Müdahale Merkezi'nin (USOM) oltalama siteleri listesi ve meşru alan adlarından oluşmaktadır. Veri seti, Dataset1 ve Dataset2 olmak üzere iki alt küme halinde ayrılmıştır. Dataset1, derin öğrenme tabanlı bir yapay zeka modelini eğitmek için kullanılarak, eğitim sonucunda %92'lik bir doğruluk değeri elde etmiştir. Dataset2 ise derin öğrenme tabanlı modelin bir site için verdiği oltalama puanının yanında yine o web sitesine ilişkin ek özellikleri içeren ve ikili sınıflandırma için bir makine öğrenimi modelini kullanan modelin hazırlanmasında kullanılmıştır. Yapılan testler, önerilen bu yaklaşımın bir web sitesi için %98,4'lük bir doğruluk puanı ile oltalama sitesi olup olmadığına dair tahmin yapabildiğini göstermektedir. Anahtar Kelimeler: Phishing, Online Dolandırıcılık, Siber Saldırı, Makine öğrenmesi, Derin öğrneme, Zararlı URL
With the increase in internet speed and the parallel rise in the number of internet-connected devices, online fraud has exhibited a significant surge in recent years. Attackers exploit platforms such as WhatsApp, email, SMS, mobile notifications, and social media messages to disseminate content that is attention-grabbing, intriguing, or fear-inducing. By inducing users to interact with these contents and click on embedded links, these malevolent actors redirect users to counterfeit websites that closely mimic authentic ones, thereby obtaining users' confidential information or engaging in various forms of deception. Commonly referred to as "phishing" sites, these malicious web pages are often used for such deceptive operations. Consequently, it is of paramount importance that mobile applications or browsers possess the capability to identify such harmful websites even before users access them. This study employs a two-stage approach to achieve a 98.4% success rate in identifying malicious sites. The dataset used consists of a list of malicious sites from the National Cyber Incident Response Center (USOM) alongside legitimate domain names. The dataset is divided into two subsets, namely Dataset1 and Dataset2. Dataset1 is employed to train a deep learning-based artificial intelligence model, which yields an accuracy rate of 92% upon completion of training. The websites within Dataset2 are subjected to the deep learning model in the initial stage to acquire phishing scores. Subsequently, by incorporating additional features pertaining to each website and employing a machine learning model for binary classification, the second stage of training facilitates the culmination of the ultimate outcome. Test results demonstrate the capacity to predict phishing incidents with a 98.4% accuracy score for a given website. Keywords: Online Fraud, Cyber Attack, Machine learning, Deep learning, Malicious URL
With the increase in internet speed and the parallel rise in the number of internet-connected devices, online fraud has exhibited a significant surge in recent years. Attackers exploit platforms such as WhatsApp, email, SMS, mobile notifications, and social media messages to disseminate content that is attention-grabbing, intriguing, or fear-inducing. By inducing users to interact with these contents and click on embedded links, these malevolent actors redirect users to counterfeit websites that closely mimic authentic ones, thereby obtaining users' confidential information or engaging in various forms of deception. Commonly referred to as "phishing" sites, these malicious web pages are often used for such deceptive operations. Consequently, it is of paramount importance that mobile applications or browsers possess the capability to identify such harmful websites even before users access them. This study employs a two-stage approach to achieve a 98.4% success rate in identifying malicious sites. The dataset used consists of a list of malicious sites from the National Cyber Incident Response Center (USOM) alongside legitimate domain names. The dataset is divided into two subsets, namely Dataset1 and Dataset2. Dataset1 is employed to train a deep learning-based artificial intelligence model, which yields an accuracy rate of 92% upon completion of training. The websites within Dataset2 are subjected to the deep learning model in the initial stage to acquire phishing scores. Subsequently, by incorporating additional features pertaining to each website and employing a machine learning model for binary classification, the second stage of training facilitates the culmination of the ultimate outcome. Test results demonstrate the capacity to predict phishing incidents with a 98.4% accuracy score for a given website. Keywords: Online Fraud, Cyber Attack, Machine learning, Deep learning, Malicious URL
Açıklama
Lisansüstü Eğitim Enstitüsü, Siber Güvenlik Ana Bilim Dalı
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control