Artikel ini membutuhkan penyuntingan lebih lanjut mengenai tata bahasa, gaya penulisan, hubungan antarparagraf, nada penulisan, atau ejaan. Anda dapat membantu untuk menyuntingnya.
Dalam versi terbaru CQPweb (v 3.1.7) diperkenalkan statistik baru untuk kata kunci, kolokasi, dan kata kunci, yang disebut Rasio Log .
“Rasio Log” sebenarnya adalah judul singkatan buatan saya sendiri untuk sesuatu yang lebih tepat didefinisikan sebagai log biner dari rasio frekuensi relatif atau log biner dari risiko relatif . Selama berbulan-bulan saya mengembangkan penambahan ini, orang-orang terus mengatakan kepada saya bahwa saya memerlukan label yang bagus dan mudah dipahami untuk pengukuran ini, dan mereka memang benar. Jadi Rasio Log . Tapi apa itu Rasio Log?
Rasio Log adalah upaya saya untuk menyarankan statistik yang lebih baik untuk kata kunci/tag kunci daripada kemungkinan log, yang merupakan statistik yang biasa digunakan. Masalah dengan prosedur yang diterima ini adalah log-likelihood merupakan ukuran signifikansi statistik – yang memberitahu kita seberapa banyak bukti yang kita miliki untuk perbedaan antara dua korpora. Namun, hal ini tidak memberi tahu kita seberapa besar/pentingnya suatu perbedaan. Namun sering kali kita ingin tahu seberapa besar perbedaannya!
Misalnya, jika kita melihat 200 kata kunci teratas dalam sebuah daftar, kita ingin melihat kata-kata “paling penting”, yaitu kata-kata yang perbedaan frekuensinya paling besar. Namun mengurutkan daftar berdasarkan log-likelihood tidak memberikan kita hal tersebut – hal ini memberikan kita kata-kata yang paling banyak kita buktikan, meskipun perbedaan sebenarnya cukup kecil.
Statistik Rasio Log adalah statistik “ukuran efek”, bukan statistik signifikansi: statistik ini menunjukkan seberapa besar perbedaan antara dua korpora untuk kata kunci tertentu. Statistik ini juga sangat transparan sehingga mudah untuk memahami cara penghitungannya dan mengapa statistik tersebut mewakili besarnya perbedaan.
Saat kami menyajikan frekuensi korpus, kami biasanya memberikan frekuensi relatif (atau kadang-kadang disebut frekuensi yang dinormalisasi): frekuensi ini sama dengan frekuensi absolut, dibagi dengan ukuran korpus atau subkorpus. Kita sering mengalikannya dengan faktor normalisasi – 1.000 atau 1.000.000 adalah faktor yang paling umum – namun sebenarnya ini opsional dan hanya untuk tujuan presentasi.
Setelah kita membuat suatu frekuensi menjadi frekuensi relatif dengan membaginya dengan ukuran korpus, kita dapat membandingkannya dengan frekuensi relatif dari item yang sama dalam korpus yang berbeda. Cara termudah untuk melakukannya adalah dengan mengatakan berapa kali lebih besar frekuensi relatif dalam satu korpus dibandingkan dengan korpus lainnya, yang kita hitung dengan membagi satu frekuensi relatif dengan frekuensi relatif lainnya. Misalnya, jika frekuensi relatif suatu kata adalah 0,0006 di Korpus A dan 0,0002 di Korpus B, maka kita dapat mengatakan bahwa frekuensi relatif di Korpus A tiga kali lebih besar daripada di Korpus B (0,0006 0,0002 = 3).
Membagi satu angka dengan angka lainnya menghasilkan rasio dua angka, sehingga kita dapat menyebut ukuran perbedaan antara dua korpora ini sebagai rasio frekuensi relatif (para ahli statistik sering menyebutnya sebagai risiko relatif , karena alasan yang tidak akan saya bahas di sini) , dan, seperti yang sudah saya jelaskan, ini hanya memberitahu kita berapa kali lebih sering kata tersebut ada di Corpus A dibandingkan di Corpus B – jadi ini adalah statistik yang sangat transparan dan mudah dipahami.
Kita dapat menggunakan rasio frekuensi relatif sebagai statistik keyness, tetapi menurut saya, akan berguna untuk mengubahnya terlebih dahulu menjadi logaritma (“log” singkatnya) – khususnya, logaritma ke basis 2 atau logaritma biner. Kenapa melakukan ini? Berikut cara kerja pencatatan log rasio:
Sebuah kata memiliki frekuensi relatif yang sama di A dan B – log biner rasionya adalah 0
Sebuah kata 2 kali lebih umum di A daripada di B – log biner rasionya adalah 1
Sebuah kata 4 kali lebih umum di A daripada di B – log biner rasionya adalah 2
Sebuah kata 8 kali lebih umum di A daripada di B – log biner rasionya adalah 3
Sebuah kata 16 kali lebih umum di A daripada di B – log biner rasionya adalah 4
Sebuah kata 32 kali lebih umum di A daripada di B – log biner rasionya adalah 5
Artinya, setelah kita mengambil log biner, setiap titik mewakili penggandaan rasio. Hal ini sangat berguna untuk membantu kita fokus pada besarnya perbedaan secara keseluruhan (4 vs. 8 vs. 16) daripada perbedaan yang cukup berdekatan (misalnya 4 vs. 5 vs. 6). Penggunaan log biner ini sangat familiar dalam linguistik korpus – ukuran Informasi Bersama yang umum digunakan, yang berkaitan erat dengan rasio frekuensi relatif, juga dihitung menggunakan log biner.
Jadi sekarang kita telah sampai pada ukuran kita – log biner dari rasio frekuensi relatif , atau disingkat Rasio Log .
Jika Anda mengikuti penjelasan di atas, maka Anda mengetahui semua yang perlu Anda ketahui untuk menginterpretasikan skor Rasio Log. Jika Anda tidak mengikutinya, inilah kesimpulan penting: setiap poin tambahan dari skor Rasio Log mewakili dua kali lipat ukuran perbedaan antara dua corpora, untuk kata kunci yang sedang dipertimbangkan.
Saat kita menggunakan Log Ratio untuk kolokasi, interpretasinya sama persis, namun diterapkan pada zona di sekitar node: setiap poin tambahan dari Log Ratio Score mewakili dua kali lipat ukuran perbedaan antara frekuensi kolokasi di dekat node dan frekuensinya di tempat lain. . Hasilnya adalah ukuran kolokasi yang sangat mirip dengan Saling Informasi.
Keuntungan lain dari Rasio Log adalah dapat digunakan untuk kata kunci dan juga kata kunci, yang kemungkinan besar tidak dapat digunakan oleh log. Rasio Log nol atau hampir nol menunjukkan kata yang “terkunci” antara Corpus A dan Corpus B. Akibatnya, versi baru CQPweb memungkinkan Anda melihat kata kunci – sepengetahuan saya, alat corpus umum pertama yang memungkinkan hal ini .
Pembahasan yang lebih formal tentang Rasio Log akan menjadi inti presentasi saya di konferensi ICAME akhir minggu ini. Sebuah artikel jurnal akan menyusul pada waktunya.