TELKOMNIKA Telecommunication, Computing, Electronics and Control
Enhancing text classification performance by preprocessing misspelled words in Indonesian language

Dublin Core

Title

Subject

Indonesian language
Levenshtein distance
Text classification
Typo correction
User feedback

Description

Supervised learning using shallow machine learning methods is still a popular
method in processing text, despite the rapidly advancing sector of
unsupervised methodologies using deep learning. Supervised text
classification for application user feedback sentiments in Indonesian Language
is one of the applications which is quite popular in both the research
community and industry. However, due to the nature of shallow machine
learning approaches, various text preprocessing techniques are required to
clean the input data. This research aims to implement and evaluate the role of
Levenshtein distance algorithm in detecting and preprocessing misspelled
words in Indonesian language, before the text data is then used to train a
user feedback sentiment classification model using multinomial Naïve Bayes.
This research experimented with various evaluation scenarios, and found that
preprocessing misspelled words in Indonesian language using the
Levenshtein distance algorithm could be useful and showed a promising 8.2%
increase on the accuracy of the model’s ability to classify user feedback text
according to their sentiments.

Creator

Reza Setiabudi, Ni Made Satvika Iswari, Andre Rusli

Date

Jan 20, 2021

Contributor

peri irawan

Format

pdf

Language

english

Type

text

Files

20369-55840-1-PB.pdf

Collection

VOL. 19, NO. 4 2021

Tags

Indonesian language,Repository, Repository Horizon University Indonesia, Repository Universitas Horizon Indonesia, Horizon.ac.id, Horizon University Indonesia, Universitas Horizon Indonesia, HorizonU, Repo Horizon , Jurnal Nasional Informatika,Repository, Repository Horizon University Indonesia, Repository Universitas Horizon Indonesia, Horizon.ac.id, Horizon University Indonesia, Universitas Horizon Indonesia, HorizonU, Repo Horizon , Levenshtein distance,Repository, Repository Horizon University Indonesia, Repository Universitas Horizon Indonesia, Horizon.ac.id, Horizon University Indonesia, Universitas Horizon Indonesia, HorizonU, Repo Horizon , text classification,Repository, Repository Horizon University Indonesia, Repository Universitas Horizon Indonesia, Horizon.ac.id, Horizon University Indonesia, Universitas Horizon Indonesia, HorizonU, Repo Horizon , Typo correction,Repository, Repository Horizon University Indonesia, Repository Universitas Horizon Indonesia, Horizon.ac.id, Horizon University Indonesia, Universitas Horizon Indonesia, HorizonU, Repo Horizon , User feedback

Citation

Reza Setiabudi, Ni Made Satvika Iswari, Andre Rusli, “TELKOMNIKA Telecommunication, Computing, Electronics and Control
Enhancing text classification performance by preprocessing misspelled words in Indonesian language,” Repository Horizon University Indonesia, accessed April 22, 2026, https://repository.horizon.ac.id/items/show/4119.

TELKOMNIKA Telecommunication, Computing, Electronics and Control Enhancing text classification performance by preprocessing misspelled words in Indonesian language

Dublin Core

Title

Subject

Description

Creator

Date

Contributor

Format

Language

Type

Files

Collection

Tags

Citation

TELKOMNIKA Telecommunication, Computing, Electronics and Control
Enhancing text classification performance by preprocessing misspelled words in Indonesian language