CMP4507 Text MiningBahçeşehir ÜniversitesiAkademik Programlar BİLGİSAYAR MÜHENDİSLİĞİÖğrenciler için Genel BilgiDiploma EkiErasmus BeyanıBologna KomisyonuUlusal Yeterlilikler
BİLGİSAYAR MÜHENDİSLİĞİ
Lisans TYYÇ: 6. Düzey QF-EHEA: 1. Düzey EQF-LLL: 6. Düzey

Ders Tanıtım Bilgileri

Ders Kodu Ders Adı Yarıyıl Teorik Pratik Kredi AKTS
CMP4507 Metin Madenciliği Güz
Bahar
3 0 3 6
Bu katalog bilgi amaçlıdır, dersin açılma durumu, ilgili bölüm tarafından yarıyıl başında belirlenir.

Temel Bilgiler

Öğretim Dili: İngilizce
Dersin Türü: Departmental Elective
Dersin Seviyesi: LİSANS
Dersin Veriliş Şekli: Yüz yüze
Dersin Koordinatörü: Doç. Dr. CEMAL OKAN ŞAKAR
Opsiyonel Program Bileşenleri: None
Dersin Amacı: Metinsel veri; makale, blog, tweet, haber, yayın, kitap gibi birçok ortamda giderek artmaktadır. Bu tür verilerle çalışmak ve bilgi üretebilmek; dilbilim, makine öğrenmesi, derin öğrenme, doğal dil işleme gibi birçok alandan bilgi birikimi gerektirdiğinden oldukça zordur. Bu dersin amacı; metinsel verinin kantitatif analizini sağlamak üzere metinsel belgelerde makine öğrenmesinin uygulanmasını sunmaktır. Metinsel verinin temizlenmesi, bu verinin temsili ve farklı problemlerde verinin oluşturulması genel olarak metin verisiyle çalışırken bilinmesi gereken üç önemli konudur.

Öğrenme Kazanımları

Bu dersi başarıyla tamamlayabilen öğrenciler;
Tokenizasyon, kök bulma (stemming), lemmatizasyon ve durak kelime (stop-word) çıkarma gibi metinsel verilerin hazırlanması yöntemlerini tanımlayabilir.
Bag-of-words, TF-IDF ve kelime gömme (word embeddings) gibi metinsel verileri sayısal temsillere dönüştürme için temel teknikleri açıklayabilir.
Metin sınıflandırma, kümeleme ve konu modelleme algoritmalarını makine öğrenmesi yöntemleriyle uygulayabilir.
Metin madenciliği modellerinin performansını doğruluk (accuracy), kesinlik (precision), geri çağırma (recall) ve F1-skoru gibi uygun metriklerle değerlendirebilir.
Adlandırılmış varlık tanıma (named entity recognition), sözcük türü etiketleme (part-of-speech tagging) ve bağımlılık çözümlemesi (dependency parsing) gibi doğal dil işleme (NLP) temel bilgilerine hakimiyet gösterebilir.
Yapılandırılmamış metin verilerini işlemek ve analiz etmek için yeniden üretilebilir veri işleme hatları (pipelines) tasarlayıp geliştirebilir.
Duygu analizi, belge özetleme ve dil modelleme gibi ileri düzey metin madenciliği tekniklerini keşfedebilir.

Dersin İçeriği

W1 Ders genel bakışı, metin madenciliğine giriş
W2 Metin madenciliğinde veri etiketleme ve ön işleme
W3 Metin Temsili: Vektör Uzay Modeli
W4 Metin Temsili: Dağıtık Temsil
W5 Metin Sınıflandırma: Geleneksel Teknikler
W6 Metin Sınıflandırma: Derin Öğrenme Teknikleri
W7 Metin Sınıflandırma: Derin Öğrenme Teknikleri, Metin Sınıflandırma Değerlendirmesi
W8 Ara Sınav
W9 Sıra-sıra Modeller, Dikkat (Attention), Dönüştürücüler, Bağlama Dayalı Kelime Gömmeleri
W10 Metin Kümeleme
W11 Konu Modelleme
W12 Proje Sunumları
W13 Proje Sunumları
W14 Proje Sunumları

Dersin öğrenme yöntemleri anlatım, grup çalışması, teknoloji destekli öğrenme, proje hazırlama şeklindedir.

Haftalık Ayrıntılı Ders İçeriği

Hafta Konu Ön Hazırlık
1) Metin Madenciliğine giriş ve ilişkili konular (doğal dil işleme, makine öğrenmesi, derin öğrenme, derin öğrenmenin sunduğu fırsatlar) Read the Syllabus, Chapter 1 of textbook
2) Veri hazırlama yöntemlerinin açıklanması (manuel metin temizleme, NLTK ile temizleme, scikit-learn ile veri hazırlama, Keras ile veri hazırlama) Chapter 2 of textbook
3) Veri temsili modellerinin açıklanması Chapter 3 of textbook
4) Veri temsili konusunda kullanılan "kelime yerleştirmeleri" (word embeddings) konusunda bilgi verilmesi Chapter 3 of textbook
5) Metin sınıflandırma: Geleneksel Yöntemler Chapter 5.1, 5.2, 5.3 of textbook
6) Metin Sınıflandırma: Derin Öğrenme Teknikleri Chapter 5.4 of textbook
7) Metin Sınıflandırma: Derin Öğrenme Teknikleri, Metin Sınıflandırma Değerlendirmesi Chapter 5.4, 5.5 of textbook
8) Vize sınavı gözden geçirmesi • Study the topics of first seven weeks
9) Dizi-Dizi Modelleri, Dikkat Mekanizması, Dönüştürücüler, İçerik Tabanlı Kelime Gömme Chapter 4 of textbook
10) Metin Kümeleme Chapter 6 of textbook
11) Başlık Modelleme Chapter 7 of textbook
12) Pratik uygulamalar None
13) Pratik uygulamalar Student presentations
14) Pratik Uygulamalar Student Presentations

Kaynaklar

Ders Notları / Kitaplar: ---
Diğer Kaynaklar: Textbook: Zong, C., Xia, R., & Zhang, J. (2021). Text data mining (Vol. 711, p. 712). Singapore: Springer.

Support Book: Charu C. Aggarwal (2018), Machine Learning for Text, Springer.

Değerlendirme Sistemi

Yarıyıl İçi Çalışmaları Aktivite Sayısı Katkı Payı
Devam 42 % 0
Küçük Sınavlar 8 % 16
Projeler 45 % 24
Ara Sınavlar 22 % 20
Final 30 % 40
Toplam % 100
YARIYIL İÇİ ÇALIŞMALARININ BAŞARI NOTU KATKISI % 36
YARIYIL SONU ÇALIŞMALARININ BAŞARI NOTUNA KATKISI % 64
Toplam % 100

AKTS / İş Yükü Tablosu

Aktiviteler Aktivite Sayısı İş Yükü
Ders Saati 14 42
Proje 5 22
Küçük Sınavlar 8 16
Ara Sınavlar 5 20
Final 6 30
Toplam İş Yükü 130

Program ve Öğrenme Kazanımları İlişkisi

Etkisi Yok 1 En Düşük 2 Düşük 3 Orta 4 Yüksek 5 En Yüksek
           
Dersin Program Kazanımlarına Etkisi Katkı Payı
1) Matematik, fen bilimleri ve bilgisayar mühendisliğine özgü konularda yeterli bilgi birikimi; bu alanlardaki kuramsal ve uygulamalı bilgileri, karmaşık mühendislik problemlerinde kullanabilme becerisi.
2) Karmaşık mühendislik problemlerini saptama, tanımlama, formüle etme ve çözme becerisi; bu amaçla uygun analiz ve modelleme yöntemlerini seçme ve uygulama becerisi.
3) Karmaşık bir sistemi, süreci, cihazı veya ürünü gerçekçi kısıtlar ve koşullar altında, belirli gereksinimleri karşılayacak şekilde tasarlama becerisi; bu amaçla modern tasarım yöntemlerini uygulama becerisi.
4) Bilgisayar mühendisliği uygulamalarında karşılaşılan karmaşık problemlerin analizi ve çözümü için gerekli olan modern teknik ve araçları geliştirme, seçme ve kullanma becerisi; bilişim teknolojilerini etkin bir şekilde kullanma becerisi. 4
5) Karmaşık mühendislik problemlerinin veya bilgisayar mühendisliği araştırma konularının incelenmesi için deney tasarlama, deney yapma, veri toplama, sonuçları analiz etme ve yorumlama becerisi. 3
6) Disiplin içi ve çok disiplinli takımlarda etkin biçimde çalışabilme becerisi; bireysel çalışma becerisi.
7) Türkçe sözlü ve yazılı etkin iletişim kurma becerisi; en az bir yabancı dil bilgisi; etkin rapor yazma ve yazılı raporları anlama, tasarım ve üretim raporları hazırlayabilme, etkin sunum yapabilme, açık ve anlaşılır talimat verme ve alma becerisi.
8) Yaşam boyu öğrenmenin gerekliliği bilinci; bilgiye erişebilme, bilim ve teknolojideki gelişmeleri izleme ve kendini sürekli yenileme becerisi.
9) Etik ilkelerine uygun davranma, mesleki ve etik sorumluluk bilinci; mühendislik uygulamalarında kullanılan standartlar hakkında bilgi.
10) Proje yönetimi, risk yönetimi ve değişiklik yönetimi gibi, iş hayatındaki uygulamalar hakkında bilgi; girişimcilik, yenilikçilik hakkında farkındalık; sürdürülebilir kalkınma hakkında bilgi.
11) Mühendislik uygulamalarının evrensel ve toplumsal boyutlarda sağlık, çevre ve güvenlik üzerindeki etkileri ve çağın mühendislik alanına yansıyan sorunları hakkında bilgi; mühendislik çözümlerinin hukuksal sonuçları konusunda farkındalık.