Pencarian string samar (bahasa Inggris: approximate string matching) ialah persoalan pencarian teks yang merupakan cabang dari ilmu komputer[1] yaitu metode perbandingan teks antara susunan karakter dengan pola yang perkirakan paling serupa dengan menyebut, kendati terjadi kesalahan antara dua susunan karakter baik di dalam pola yang menyebabkan susunan karakter menjadi berbeda atau jauh dari persis, pencarian string tetap mampu menemukan pola sepadan. Berlainan dengan pencarian string klasik yang mengadakan perbandingan susunan karakter secara tepat. Dengan begitu, permasalahan pencarian string samar berisi banyak kerumitan daripada pencarian string lampau.[2]
Perkiraan kemiripan antara susunan karakter dengan pola, mengacu pada pengukuran yang acap dikenal sebagai jarak edit.[2] Proses pengubahan terhadap susunan karakter mengikuti pengukuran atas jumlah minimum dari operasi penambahan, penghapusan dan penggantian (substitusi) karakter agar mencapai susunan karakter yang dimaksud. Distansi yang paling sedikit antara dua string ialah kian serupa.[1]
Metode pencarian string secara samar yang dapat mengubah susunan karakter ke bentuk susunan karakter serupa, sangat sesuai atas transformasi kata tidak baku menjadi kata baku, sebab pencarian string samar menghendaki berdasarkan kemiripan penulisan.[3]
Secara matematis, pencarian string samar dapat didefinisikan sebagai dua buah susunan karakter antara dan . Sebuah fungsi diberlakukan, kala parameter dan sebagai unit susunan karakter akan variabel dan . Fungsi jarak bertugas menghitung jumlah minimal dari mengubah menjadi dengan tiga cakupan operasi. Setiap operasi yang berlangsung dihitung dengan nilai 1:[2]
Substitusi
Beroperasi dengan mengambil satu karakter dalam atas mengganti karakter ke susunan karakter tujuan , sebagai contoh:[4]
kope → kopi, yaitu mengganti karakter 'e' dengan huruf 'i'
Penambahan
Menyisipkan sebuah karakter ke dalam di posisi yang sama, sesuai karakter atas , sebagai contoh:[4]
kpi → kopi, yaitu menambahkan karakter 'o' setelah huruf 'k'
Penyisipan dapat terjadi pada awal, pertengahan maupun sebagai akhir karakter.
Penghapusan
Merupakan kebalikan dari penambahan karakter, bertindak dengan menghilangkan karakter dalam , sebagai contoh:[4]
kopii → kopi, yaitu sebagai operasi yang menghilangkan karakter 'i'
Pengubahan susunan karakter pula perlu memenuhi kondisi pertidaksamaan segitiga atas operasi pemindahan karakter (transposisi) yang melibatkan penukaran huruf berurutan, sebagai contoh:[3]
yagn → yang, yaitu menukar huruf 'gn' ke 'ng', cakupan operasi masih bernilai 1
Akhir sebagai masukan dari penyelesaian atas persoalan pencarian string samar ialah menentukan sebagai kesalahan maksimum yang diperkenankan atas menghitung himpunan dengan kondisi .[2]
Pengindeksan
Berdasarkan tradisi, algoritme pencarian string samar dikelompokkan ke dalam dua kategori mencakup saluran langsung dan luar. Pada teknik saluran langsung, pencarian berlangsung tanpa sebuah indeks. Pengembangan yang paling dikenal ialah algoritme bitap.[5]
Perbandingan algoritme
Sebagai satu rancangan dalam pencarian string samar, pengukur kemiripan susunan karakter pula dikenal jarak edit, istilah lain dari jarak Levenshtein,[3] yang termasuk ke dalam algoritmepemrograman dinamis, sebab fungsi jarak menggunakan penghitungan berbasis pemrograman dinamis yang diketahui sangat fleksibel dalam menambah operasi pengubahan baru ataupun dalam mengganti nilai operasi.[1]
Jarak Hamming sebagai satu dari algoritme pencarian string samar bekerja dengan mengukur jarak dua buah susunan karakter yang berukuran sama, membandingkan karakter atas susunan karakter di posisi yang sama berdasarkan jumlah simbol berbeda atas kedua susunan karakter.
Jarak Hamming hanya mendukung operasi substitusi karakter.[3]
Jarak Levenshtein atau jarak edit, satu dari algoritme pencarian string samar lain yang menghitung metrik dari susunan karakter awal ke susunan karakter tujuan berdasarkan jumlah operasi susunan karakter yang paling sedikit. Operasi susunan karakter yang dilibatkan meliputi operasi penyisipan, penghapusan dan substitusi.
Perihal program pemeriksa ejaan yang melingkupi pengolahan teks menjadi sejalan, sebab program perlu mengenali susunan karakter dengan keselarasan terdekat kala susunan karakter tidak ditemukan dalam daftar kata yang menempatkan pencarian string samar kian fundamental.[7]
Jarak Damerau-Levenshtein
Jarak Damerau-Levenshtein merupakan perluasan dari jarak Levenshtein yang pula mengukur perbedaan dua susunan karakter, tetapi bersifat lebih restriktif.
Faktor pembeda antara jarak Levenshtein dengan jarak Damerau-Levenshtein terletak pada operasi transposisi yaitu menukar dua karakter yang berdekatan sebagai tambahan atas operasi yang diperkenankan kepada tiga operasi pengeditan karakter tunggal mencakup penyisipan, penghapusan dan substitusi.[8]
Pada beberapa kasus, tanpa operasi transposisi, operasi pengubahan susunan karakter dapat menjadi dua operasi baik itu operasi substitusi sebanyak dua maupun operasi penghapusan dan penyisipan yang digunakan beriringan.[9]
Jarak Jaro-Winkler
Jarak Jaro-Winkler berawal dari metrik jarak Jaro yang mengukur kesamaan dua susunan karakter berdasarkan nilai angka. Nilai awal ditandai dengan 0 sebagai ketaksamaan dari susunan karakter, sementara kemiripan susunan karakter yang ditemukan, mengacu pada nilai yang lebih tinggi.
Jaro-Winkler berjalan dengan asas pada menghitung banyak susunan karakter, jumlah karakter yang sama antara dua susunan karakter dan jumlah transposisi. Secara umum, Jaro-Winkler terdapat pada fungsi deteksi duplikat atau plagiarisme.[3]
Aplikasi
Persoalan pada pencarian string samar banyak diketahui diterapkan pada pencarian teks digital yang sehari-hari acap diperlukan dan biologi komputasi.[1]
^ abcde
Baeza-Yates, R; Navarro, G (1998). Fast Approximate String Matching in a Dictionary (Prosiding. SPIRE'98). IEEE.
^ abcde
Narendra Kumar; et al. (2010). "Approximate string matching Algorithm". International Journal on Computer Science and Engineering (IJCSE). 2 (3): 641–644. ISSN0975-3397.
^ abcdefg
Rochmawati, Y; Kusumaningrum, R (April 2016). "Studi Perbandingan Algoritma Pencarian String dalam Metode Approximate String Matching untuk Identifikasi Kesalahan Pengetikan Teks". Jurnal Buana Informatika. 7 (2): 125–134.
^ abcde
Nasution, Elvi Sahara; Hasibuan, Nelly Astuti; Suginam (Oktober 2018). "Implementasi Algoritma Approximate String Matching Pada Aplikasi Filosofi Berbasis Android" (Konferensi Nasional Teknologi Informasi dan Komputer (KOMIK)). 2 (1). ISSN2597-4645.
^
Sumeet Dua; et al. (2011). Information Intelligence, Systems, Technology and Management: 5th International Conference, ICISTM 2011, Gurgaon, India (Prosiding). Springer Science & Business Media. hlm. 199. ISBN978-3642194221.
^ ab
Gurning, Ardi Isbad Amar; Zarnelly; Adawiyah, Arabiatul (Februari 2016). "Penerapan Fuzzy String Matching Pada Aplikasi Pencarian Tugas Akhir Mahasiswa Jurusan Sistem Informasi Berbasis Web". Jurnal Rekayasa dan Manajemen Sistem Informasi. 2 (1). ISSN2502-8995.
^ ab
Skiena, Steven. "Approximate String Matching". Stony Brook Algorithm Repository (Repositori). Diakses tanggal 15 Juni 2020.