Sentiment Analysis of Movie Reviews Using Spark on IMDB Review Dataset

Authors

  • Luthfi Nurul Huda Universitas Amikom Yogyakarta Author

Keywords:

fraud detection, credit card, random forest, XGBoost, machine learning

Abstract

Analisis sentimen pada ulasan film telah menjadi topik penting dalam penelitian berbasis teks, terutama untuk mendeteksi polaritas sentimen seperti positif, negatif, atau netral. Penelitian ini mengevaluasi kinerja dua algoritma, Support Vector Machine (SVM) dan Logistic Regression (LR), dalam mengklasifikasikan ulasan film dengan menggunakan dataset IMDb yang tersedia untuk umum di Kaggle. Data tersebut dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian, melalui tahapan preprocessing seperti case folding, tokenisasi, penghilangan stop words, stemming, dan ekstraksi fitur dengan menggunakan Word2Vec. Hasil evaluasi menunjukkan bahwa SVM memiliki akurasi sebesar 76%, mengungguli LR yang mencapai 69%. Keunggulan SVM terletak pada kemampuannya untuk menemukan hyperplane yang optimal dalam ruang berdimensi tinggi, yang sesuai dengan sifat data teks yang jarang dan berbentuk vektor. Sebaliknya, meskipun LR lebih sederhana dan lebih cepat untuk dilatih, model ini menunjukkan kinerja yang lebih rendah karena keterbatasannya dalam menangani hubungan non-linear. Preprocessing terbukti memberikan kontribusi yang signifikan dalam meningkatkan kualitas data input, sementara representasi Word2Vec memberikan fitur-fitur yang berarti untuk mendukung analisis sentimen. Penelitian ini menggarisbawahi pentingnya memilih algoritma yang tepat untuk analisis sentimen berbasis data besar, dengan hasil yang menunjukkan bahwa SVM lebih unggul dalam menangani data teks berskala besar. Penelitian ini berkontribusi dalam memahami efektivitas metode pembelajaran mesin dalam analisis sentimen ulasan film, sekaligus memberikan dasar untuk penelitian di masa depan yang dapat memperluas metode dan set data ke domain lain.

Downloads

Download data is not yet available.

Downloads

Published

2024-12-31