BİLGİSAYAR MÜHENDİSLİĞİ | |||||
Lisans | TYYÇ: 6. Düzey | QF-EHEA: 1. Düzey | EQF-LLL: 6. Düzey |
Ders Kodu | Ders Adı | Yarıyıl | Teorik | Pratik | Kredi | AKTS |
CMP4507 | Metin Madenciliği | Güz Bahar |
3 | 0 | 3 | 6 |
Bu katalog bilgi amaçlıdır, dersin açılma durumu, ilgili bölüm tarafından yarıyıl başında belirlenir. |
Öğretim Dili: | İngilizce |
Dersin Türü: | Departmental Elective |
Dersin Seviyesi: | LİSANS |
Dersin Veriliş Şekli: | Yüz yüze |
Dersin Koordinatörü: | Doç. Dr. CEMAL OKAN ŞAKAR |
Opsiyonel Program Bileşenleri: | None |
Dersin Amacı: | Metinsel veri; makale, blog, tweet, haber, yayın, kitap gibi birçok ortamda giderek artmaktadır. Bu tür verilerle çalışmak ve bilgi üretebilmek; dilbilim, makine öğrenmesi, derin öğrenme, doğal dil işleme gibi birçok alandan bilgi birikimi gerektirdiğinden oldukça zordur. Bu dersin amacı; metinsel verinin kantitatif analizini sağlamak üzere metinsel belgelerde makine öğrenmesinin uygulanmasını sunmaktır. Metinsel verinin temizlenmesi, bu verinin temsili ve farklı problemlerde verinin oluşturulması genel olarak metin verisiyle çalışırken bilinmesi gereken üç önemli konudur. |
Bu dersi başarıyla tamamlayabilen öğrenciler; Tokenizasyon, kök bulma (stemming), lemmatizasyon ve durak kelime (stop-word) çıkarma gibi metinsel verilerin hazırlanması yöntemlerini tanımlayabilir. Bag-of-words, TF-IDF ve kelime gömme (word embeddings) gibi metinsel verileri sayısal temsillere dönüştürme için temel teknikleri açıklayabilir. Metin sınıflandırma, kümeleme ve konu modelleme algoritmalarını makine öğrenmesi yöntemleriyle uygulayabilir. Metin madenciliği modellerinin performansını doğruluk (accuracy), kesinlik (precision), geri çağırma (recall) ve F1-skoru gibi uygun metriklerle değerlendirebilir. Adlandırılmış varlık tanıma (named entity recognition), sözcük türü etiketleme (part-of-speech tagging) ve bağımlılık çözümlemesi (dependency parsing) gibi doğal dil işleme (NLP) temel bilgilerine hakimiyet gösterebilir. Yapılandırılmamış metin verilerini işlemek ve analiz etmek için yeniden üretilebilir veri işleme hatları (pipelines) tasarlayıp geliştirebilir. Duygu analizi, belge özetleme ve dil modelleme gibi ileri düzey metin madenciliği tekniklerini keşfedebilir. |
W1 Ders genel bakışı, metin madenciliğine giriş W2 Metin madenciliğinde veri etiketleme ve ön işleme W3 Metin Temsili: Vektör Uzay Modeli W4 Metin Temsili: Dağıtık Temsil W5 Metin Sınıflandırma: Geleneksel Teknikler W6 Metin Sınıflandırma: Derin Öğrenme Teknikleri W7 Metin Sınıflandırma: Derin Öğrenme Teknikleri, Metin Sınıflandırma Değerlendirmesi W8 Ara Sınav W9 Sıra-sıra Modeller, Dikkat (Attention), Dönüştürücüler, Bağlama Dayalı Kelime Gömmeleri W10 Metin Kümeleme W11 Konu Modelleme W12 Proje Sunumları W13 Proje Sunumları W14 Proje Sunumları Dersin öğrenme yöntemleri anlatım, grup çalışması, teknoloji destekli öğrenme, proje hazırlama şeklindedir. |
Hafta | Konu | Ön Hazırlık |
1) | Metin Madenciliğine giriş ve ilişkili konular (doğal dil işleme, makine öğrenmesi, derin öğrenme, derin öğrenmenin sunduğu fırsatlar) | Read the Syllabus, Chapter 1 of textbook |
2) | Veri hazırlama yöntemlerinin açıklanması (manuel metin temizleme, NLTK ile temizleme, scikit-learn ile veri hazırlama, Keras ile veri hazırlama) | Chapter 2 of textbook |
3) | Veri temsili modellerinin açıklanması | Chapter 3 of textbook |
4) | Veri temsili konusunda kullanılan "kelime yerleştirmeleri" (word embeddings) konusunda bilgi verilmesi | Chapter 3 of textbook |
5) | Metin sınıflandırma: Geleneksel Yöntemler | Chapter 5.1, 5.2, 5.3 of textbook |
6) | Metin Sınıflandırma: Derin Öğrenme Teknikleri | Chapter 5.4 of textbook |
7) | Metin Sınıflandırma: Derin Öğrenme Teknikleri, Metin Sınıflandırma Değerlendirmesi | Chapter 5.4, 5.5 of textbook |
8) | Vize sınavı gözden geçirmesi | • Study the topics of first seven weeks |
9) | Dizi-Dizi Modelleri, Dikkat Mekanizması, Dönüştürücüler, İçerik Tabanlı Kelime Gömme | Chapter 4 of textbook |
10) | Metin Kümeleme | Chapter 6 of textbook |
11) | Başlık Modelleme | Chapter 7 of textbook |
12) | Pratik uygulamalar | None |
13) | Pratik uygulamalar | Student presentations |
14) | Pratik Uygulamalar | Student Presentations |
Ders Notları / Kitaplar: | --- |
Diğer Kaynaklar: | Textbook: Zong, C., Xia, R., & Zhang, J. (2021). Text data mining (Vol. 711, p. 712). Singapore: Springer. Support Book: Charu C. Aggarwal (2018), Machine Learning for Text, Springer. |
Yarıyıl İçi Çalışmaları | Aktivite Sayısı | Katkı Payı |
Devam | 42 | % 0 |
Küçük Sınavlar | 8 | % 16 |
Projeler | 45 | % 24 |
Ara Sınavlar | 22 | % 20 |
Final | 30 | % 40 |
Toplam | % 100 | |
YARIYIL İÇİ ÇALIŞMALARININ BAŞARI NOTU KATKISI | % 36 | |
YARIYIL SONU ÇALIŞMALARININ BAŞARI NOTUNA KATKISI | % 64 | |
Toplam | % 100 |
Aktiviteler | Aktivite Sayısı | İş Yükü |
Ders Saati | 14 | 42 |
Proje | 5 | 22 |
Küçük Sınavlar | 8 | 16 |
Ara Sınavlar | 5 | 20 |
Final | 6 | 30 |
Toplam İş Yükü | 130 |
Etkisi Yok | 1 En Düşük | 2 Düşük | 3 Orta | 4 Yüksek | 5 En Yüksek |
Dersin Program Kazanımlarına Etkisi | Katkı Payı | |
1) | Matematik, fen bilimleri ve bilgisayar mühendisliğine özgü konularda yeterli bilgi birikimi; bu alanlardaki kuramsal ve uygulamalı bilgileri, karmaşık mühendislik problemlerinde kullanabilme becerisi. | |
2) | Karmaşık mühendislik problemlerini saptama, tanımlama, formüle etme ve çözme becerisi; bu amaçla uygun analiz ve modelleme yöntemlerini seçme ve uygulama becerisi. | |
3) | Karmaşık bir sistemi, süreci, cihazı veya ürünü gerçekçi kısıtlar ve koşullar altında, belirli gereksinimleri karşılayacak şekilde tasarlama becerisi; bu amaçla modern tasarım yöntemlerini uygulama becerisi. | |
4) | Bilgisayar mühendisliği uygulamalarında karşılaşılan karmaşık problemlerin analizi ve çözümü için gerekli olan modern teknik ve araçları geliştirme, seçme ve kullanma becerisi; bilişim teknolojilerini etkin bir şekilde kullanma becerisi. | 4 |
5) | Karmaşık mühendislik problemlerinin veya bilgisayar mühendisliği araştırma konularının incelenmesi için deney tasarlama, deney yapma, veri toplama, sonuçları analiz etme ve yorumlama becerisi. | 3 |
6) | Disiplin içi ve çok disiplinli takımlarda etkin biçimde çalışabilme becerisi; bireysel çalışma becerisi. | |
7) | Türkçe sözlü ve yazılı etkin iletişim kurma becerisi; en az bir yabancı dil bilgisi; etkin rapor yazma ve yazılı raporları anlama, tasarım ve üretim raporları hazırlayabilme, etkin sunum yapabilme, açık ve anlaşılır talimat verme ve alma becerisi. | |
8) | Yaşam boyu öğrenmenin gerekliliği bilinci; bilgiye erişebilme, bilim ve teknolojideki gelişmeleri izleme ve kendini sürekli yenileme becerisi. | |
9) | Etik ilkelerine uygun davranma, mesleki ve etik sorumluluk bilinci; mühendislik uygulamalarında kullanılan standartlar hakkında bilgi. | |
10) | Proje yönetimi, risk yönetimi ve değişiklik yönetimi gibi, iş hayatındaki uygulamalar hakkında bilgi; girişimcilik, yenilikçilik hakkında farkındalık; sürdürülebilir kalkınma hakkında bilgi. | |
11) | Mühendislik uygulamalarının evrensel ve toplumsal boyutlarda sağlık, çevre ve güvenlik üzerindeki etkileri ve çağın mühendislik alanına yansıyan sorunları hakkında bilgi; mühendislik çözümlerinin hukuksal sonuçları konusunda farkındalık. |