📄 Lisans Tezi

Decathlon Ürün Yorumlarında Duygu Analizi: Makine Öğrenmesi Algoritmaları ve SHAP Tabanlı Özellik Önemi

Selin Pir — Pamukkale Üniversitesi, Yönetim Bilişim Sistemleri

Danışman: Prof. Dr. Selçuk Burak Haşıloğlu

0Yorum
0Spor Dalı
0Model

Neden Bu Konu?

🎯

Motivasyon

E-ticaret platformlarında biriken binlerce müşteri yorumu, işletmeler için değerli içgörüler barındırır. Ancak bu yorumların manuel analizi pratik değildir. Literatür taraması kapsamında Decathlon Türkiye özelinde Türkçe müşteri yorumlarını ele alan sistematik bir duygu analizi çalışmasına ulaşılamamıştır.

🔬

Araştırma Sorusu & Hedefler

Decathlon Türkiye'deki 12.463 Türkçe müşteri yorumu üzerinde yapısal öznitelikler (yorum uzunluğu, yıldız, fiyat, marka, kullanım süresi) duygu sınıfını ne ölçüde belirler? Hangi makine öğrenmesi modeli en yüksek performansı sunar ve en güçlü belirleyici değişken hangisidir?

Araştırma Pipeline

Veri toplama aşamasından açıklanabilir yapay zekâ analizine kadar 7 adımlı süreç.

🔍
Veri Toplama
Selenium WebDriver, 214 ürün, 12.497 yorum
🏷️
Duygu Etiketleme
XLM-RoBERTa(incidelen), Google Colab, 3 sınıf
🧹
Veri Ön İşleme
URL/HTML temizliği, 34 emoji-only yorum elendi
🔢
Kodlama
Label & ordinal encoding, 16 spor dalı, 18 marka
🤖
Sınıflandırma Modellerinin Karşılaştırılması
Orange DM, 9 algoritma, 10-katlı CV
📊
Değerlendirme
AUC, CA, F1, Precision, Recall, MCC
🔎
XAI / SHAP
Permütasyon tabanlı özellik önem analizi

Analiz Akış Diyagramı

Düğümleri sürükleyerek akışı keşfedin. Her renk farklı bir widget kategorisini temsil eder.

Sürükle · Çift tıkla = çıktı

Kapatmak için dışına tıklayın

Veri
Ön İşleme
Model
Değerlendirme
Açıklama
Görüntüleme

12.463 Türkçe Müşteri Yorumu

Decathlon Türkiye platformundan toplanan yorumların duygu dağılımı ve spor dalı analizi.

Duygu Dağılımı

12.463Yorum
Pozitif %53,26
Nötr %25,72
Negatif %21,01

En Fazla Yorum Alan Spor Dalları

Outdoor Sporlar
5.006
Koşu
1.906
Paten
1.159
Futbol
955
Avcılık
949

Model Karşılaştırması

9 makine öğrenmesi algoritmasının 10-katlı stratified çapraz doğrulama sonuçları.

ModelAUCCAF1PrecisionRecall
Gradient Boosting0,7730,6880,6580,6950,688
Neural Network0,7690,6860,6550,6910,686
Random Forest0,7380,6490,6320,6350,649
Naive Bayes0,7360,6510,6350,6360,651
Logistic Regression0,7320,5920,5250,5870,592
Decision Tree0,7190,6230,6140,6110,623
kNN0,7000,5920,5830,5790,592
AdaBoost0,6810,5990,5910,5870,599
Stochastic Gradient Descent0,5690,5630,4630,6180,563

SHAP Özellik Önem Analizi

Gradient Boosting modeli üzerinde permütasyon tabanlı özellik önem analizi sonuçları.

🔴

Negatif Sınıf

Yüksek kelime_sayisi → negatif olasılık artar. Uzun yorumlar memnuniyetsizlik sinyali taşır.

🟢

Pozitif Sınıf

Yüksek YORUM_YILDIZ + düşük kelime_sayisi → pozitif. Kısa ve yüksek puanlı = memnun müşteri.

Nötr Sınıf

Değişkenler dengeli etki gösterir. Kısa yorumlar nötre kayma eğilimindedir.

Özellik Önem Sıralaması

kelime_sayisi
∆AUC: 0,19
YORUM_YILDIZ
~0,07
MARKA_KOD
~0,04
FIYAT
~0,03
KULLANIM_SURESI_KOD
~0,02
TUM_YILDIZ
~0,01

Temel Bulgular & Katkılar

🏆

En Başarılı Model

Gradient Boosting en yüksek AUC değerine (0,773) ulaşarak yapısal özniteliklerle duygu sınıflandırmasında öne çıkmıştır.

📏

En Güçlü Belirleyici

Yorum uzunluğu (kelime_sayisi) — ∆AUC 0,19 ile en etkili değişkendir. Çıkarıldığında model performansı ciddi düşer.

💡

Pratik Çıkarım

Uzun yorumlar öncelikli incelenmeli — memnuniyetsizlik göstergesidir. Bu bulgu, müşteri ilişkileri yönetiminde önceliklendirme stratejisi sunar.