Günlük hayatımızın vazgeçilmez bir parçası haline gelen Internet ve sosyal medya alanındaki gelişmeler ile birlikte, bilgisayar ve mobilcihaz kullanıcıların farklı mecralardaki yorumlarında büyük artış yaşanmaktadır. Bu büyük veri miktarında artış nedeniyle, kullanıcıpaylaşımlarımda konu başlıklarını ve özelliklerinin doğru ve otomatik olarak çıkarılması önemli bir problem haline gelmiştir. Çeşitliplatformlarda paylaşılan kullanıcı metinleri, ilişkisel olmayan ve düzensiz verilerdir. Bu verileri sınıflandırmak, büyük veri işleme veyapay zekâ çalışma alanlarından biri olan doğal dil işleme için önemli bir konudur. Doğal dil işlemenin kullanım amaçları arasında,ilişkisel olmayan düzensiz metinlerden, anlamlı veriler elde etmek önemli bir çalışma konusudur. Buradan hareketle; iki insanınkarşılıklı anlaştığı doğal bir dili anlayıp, cevap verme, özet çıkarma, gibi doğal bir insan zekasının yapabildiğini çok daha hızlıyapabilmek büyük bir önem taşımaktadır. Doğal dil işlemenin alt çalışma alanlarından biri olan konu modelleme, birçok belgenin hangikonuları içerdiğini ve bu konuların önemli özelliklerini ortaya koyar. Günümüzde birçok içerik sağlayıcılar, takipçilerine, anlıkiçeriklerin önerilmesi işleminde, konu modelleme yapılarını kullanarak, veri akışını doğru kişilere, çok hızlı bir şekildeyönlendirebilirler. Daha önceden etiketlenmiş eğitim setine gerek duymayan Gizli Anlam Analizi (Latent Semantic Indexing - LSI)algoritması bu çalışmada kullanılmıştır. Bu çalışmada, Türkçe kullanıcı girdilerinin yer aldığı Ekşisözlük platformunda, “Apple”,“Samsung” ve “Microsoft” başlıklı tartışmalar elde edilerek ve bu tartışmaların alt konu başlıkları “Gizli Anlam Analizi” yöntemi ilemodellenmiştir. Toplanan verilerden alt konu başlıkları bulunarak, elde edilen konu başlıkları ile kategoriler karşılaştırılmış,karşılaştırma sonucunda F-Score ile doğruluk oranı ölçülmüştür. Elde edilen F-Score değeri, %74 doğruluk oranı ile bu veri seti ve bualgoritma için sınıflandırma yapıldığını göstermiştir.
There is a dramatic rise in the number of comments in Internet, which is an indispensable tool for our daily lives. Modelling topics and their features have become more important because of this high volume. Social media users’ texts shared in various social media websites are unstructured and not relational data. Clustering this data is one of the most important study area of Natural Language Processing which is a crucial branch of Artificial Intelligence.The purpose of NLP is to get information from unstructured data and react in proper way just like two human being understand each other via a natural language. NLP can do such these jobs faster than natural intelligence. Topic Modelling produces the results of existing topics and their features from large collection of documents. Content providers may distribute the information to the right people fast by using topic modelling tools. In this study, we use Latent Semantic Indexing (LSI) algorithm since it does not need annotated data to train the model. We collect Turkish entries related to “Apple”, “Samsung” and “Microsoft” in EkşiSözlük and find the subtopics of the discussions. Sub topics were found and the topics were compared with the categories and F-Score was measured for accuracy. The obtained F-Score showed 74% accuracy rate for this data set and this algorithm.