Pazar, Haziran 26, 2011

KNIME ve Haber Metinlerinin Sınıflandırılması 2

Uygulamamız, Başlıkdanda anlayacağınız gibi Haber Metinlerinin otomatik sınıflandırılması. Uygulamamız için gereken veriyi Kemik den aldık. Kemik  Yıldız  Teknik Üniversitesinin Doğal Dil İşleme Grubu.  Neden Kemik? sorusunuda "Çünkü dilin kemiği yoktur" diye cevaplıyorlar.

Gurubun yayınladığı veri kümelerinden 75Haber diye geçen veri kümesini kullanacağız Veri kümesi  M.Fatih Amasyalı tarafından hazırlanmış ve bu makalede
 Otomatik Haber Metinleri Sınıflandırma", M.Fatih Amasyalı, Tülay Yıldırım, SIU 2004
kullanılmıştır.

5 farklı haber sınıfına ait 15’şer, toplamda 75 haber içermektedir.
Haber metinlerinin sınıfları:
  1. ekonomi
  2. magazin
  3. sağlık
  4. siyasi
  5. spor 

KNIME ile veri okunup test ve eğitim olarak 2 ye ayrıldı ( 50 eğitim 25 test ) SVM ve Weka-Bayes ile sınıflandırma işlemi yapıldı
İşlemin akış şeması


ve Test verileri için sonuçlar şöyle
Bayes  25 yazıdan 22 sini doğru sınıflandırmış
 SVM  ise 25 yazıdan 13'ünü doğru sınıflandırmış

KNIME ve Haber Metinlerinin Sınıflandırılması 1



Öncelikle KNIME de nedir ki sorusuna cevap verelim
KNIME yani "Konstanz Information Miner" almanyada Konstanz üniversitesinde geliştirilmiş açık kaynak kodlu ve ücretsiz bir programdır. Veri madenciliği , Veri yükleme, işleme, yazma,  görselleştirme işlerinizi gayet kolay yapabilirsiniz.



Başlangıçda İlaç endüstrisi için yazılmış olsa da artık pek çok alanda kullanımı mümkün kılan özellikleri var.  mesela
  • CRM müşteri veri analizi, 
  • iş zekası ve finansal veri analizi
  • Doğal Dil İşleme
  • Görüntü İşleme
gibi. Neyse kafı fazla uzatmıyayım.
www.knime.org
adresinden indirip kurmanızı  ve   sonra, ek özelliklerininde (Extensions) kurulması için menüden
"File ->Install KNIME extensions" ile kurulumu tamamlayıp incelemenizi tavsiye ederiz.
( Weka ve R entegrasyonu , Python ve Perl Scripting, LibSVM gibi pek çok özellik bu şekilde ekleniyor )
Bu kadar laftan sonra bir uygulamada hazırlayalım istedik. Bekleyiniz yakında ....

Perşembe, Haziran 23, 2011

Yaz Tatili Ödevi !

Epeydir yazı yazamıyıyorum. aslında kafamda tasarladığım pek çok konu oldu ama vakit bulup da  yazıya dökmek nasip olmadı. Vaktimin olmaması aslında bir bahene, blogdaki pek çok yazıyı ne sıkışık zamanlarda yazdığımı ben bilirim. İnşallah şu üzerimdeki tembellik kalkarda aklımdaki yazıları yazabilirim.

Tembellik dedimde aklıma geldi. Okullar kapandı, blogdaki yazılarımızı ilgi duyan ve bitirme tezini bu tür konularda almayı planlayan, öğrenci kardeşler için bu yaz tatili zamanı büyük bir fırsattır. Seneye derslerdi, sınavlardı derken, tez verme zamanı gelipde
" Önümüzdeki hafta tezi tamamlamam lazım yoksa okul uzayacak "
şeklinde sızlanmamak için şimdiden gayret göstermek lazım. Hem zaten Öğrencilikten Talebeliğe  geçişde ancak böyle mümkün tabii böyle bir niyetiniz varsa

Bu yazıda iki kitap tavsiyesinde bulunmak istiyoruz.

İlki  Zekai Şen hocamızın;

"Bilimsel Düşünce ve Matematik Modelleme"
Konu başlıkları şöyle
  • Düşünce ve Model 
  • Matematik Modeller
  • Akılcı (Rasyonel) Mantık Modelleri 
  • Akılcı Sonsuz Küçük Aralık (Diferansiyel) Modelleri 
  • Deneyci (Ampirik) Modelleme İlkeleri 
  • Akılcı-Deneyci (Analitik) Modelleme
  • Sonlu Küçük Aralık (Sayısal) Modelleme 
  • İhtimal Yöntemleri ile Modelleme
  • Çalkantı (Pertürbasyon) Modelleri 
  • Bulanık Mantık Yöntemleri ile Model Geliştirme
Kitapdan  bir kaç parça
"Ülkemiz  eğitim sisteminde, özellikle mühendislik eğitiminde çok fazla sayıda formül ve matematik ifadelere yer verilmektedir. Bunların çıkarılmalarındaki temel düşünce  ve mantık kurallarına ağırlık  verilmediği için , mühendislik eğitimi  sanki bir formüller dizisini  bilme ve uygulama kalıplarına oturtulmuş olarak görülmektedir. Halbuki her formül bir modeldir"

"Bir kişi dogmatik ve sistematik denilen eğitim sisteminde ezberci olarak kaldı, hocaları ile tartışmalı ve eleştirel bilgiler almadı ise... veya hocalar tarafından bu biilgiler verilmedi ise , o toplulukta ne akılcı ne deneyci ne de bunların ikisinin karışımı  biçimlerinde bilgi üretimi olamaz. Bunun doğal sonucu olarak da  incelenmesi mümkün olayların bile modelleri yapılamaz"
Keşke daha gençken okusaydım dediğim bir kitap tavsiye ederiz.

İkinci kitabımız "Görüntü İşleme Teknikleri ve Mühendislik Uygulamaları"

 Bu kitapta geleneksel iki boyutlu filtreler dışında yapay sinir ağları, rasgele sinir ağları, zorlamalı yapay sinir ağları, hücresel yapay sinir ağları, hücresel rasgele yapay sinir ağları, dalgacık dönüşümü, dalgacık hücresel yapay sinir ağları, Markov rasgele alan süzgeçleri, iteratif hücresel resim işleme algoritması, yönlendirme süzgeçleri, genetik algoritma ve görüntü iletimi gibi son derece güncel konular anlatılmaktadır. Bu yöntemler çeşitli sentetik verilere ve gerçek problemlere uygulanmış olup sonuçlar ve yöntemlerin performansları bu kitapta değerlendirilmiştir.

 Tanıtımından da anlaşılacağı üzere bir ders kitabı nitelğinden çok yapılmış makale çalışmalarının derlenmesiyle oluşmuş bir kitaptır. Öğretici olmakdan çok Ufuk açıcı ve ilham verici bir kitap. Erol Gelenbe 'nin geliştirmiş olduğu Rasgele Yapay Sinir Ağları hakkında bilgiler ve uygulamaları görebileceğiniz kaç kitap vardırki türkçede...

Dip Not:  Yazıyı yayınladıktan sonra daha önce yazdığım kitap tavsiyelerinide etiketledim. Artık kitap katagorisinden kolaylıkla ulaşabilirsiniz. Bu vesileyle reklamını yaptığım için satış rekorları kıran kitap sahiplerindende komisyonumun ! tarafıma gönderilmesini bekliyoruz  ;)