Media Sintetis (juga dikenal sebagai media buatan AI[1], media yang diproduksi oleh AI generatif[2], media atau konten yang dipersonalisasi[3], dan secara umum dikenal sebagai Deepfake[4]) adalah istilah umum untuk produksi, manipulasi, dan modifikasi data dan media buatan dengan cara otomatis, terutama melalui penggunaan algoritma kecerdasan buatan, seperti untuk tujuan menyesatkan orang atau mengubah makna aslinya[5]. Media sintetis sebagai salah satu bidang telah berkembang pesat sejak penciptaan Jaringan Adversarial Generatif (bahasa Inggris: Generative Adversarial Network (GAN)), terutama melalui kemunculan pemalsuan dalam (bahasa Inggris: deepfake) disertai dengan penghasil sintetis lainnya seperti sintetis musik, penghasil teks, sintetis gambar manusia, sintetis ucapan, dan lainnya [5]. Meskipun para ahli menggunakan istilah "media sintetis," metode individual seperti pemalsuan dalam dan sintetis teks terkadang tidak disebut demikian oleh media akan tetapi menggunakan terminologi masing-masing. Misalnya penggunaan istilah deepfake sebagai eufemisme, contoh "deepfake untuk teks" dalam penciptaan bahasa alami, "deepfake untuk suara" untuk kloning suara saraf, dan sebagainya[6]. Perhatian yang signifikan terhadap bidang media sintetis mulai muncul pada tahun 2017 ketika majalah Motherboard melaporkan munculnya video porno yang diubah oleh AI untuk memasukkan wajah aktris terkenal[7]. Bahaya potensial dari media sintetis meliputi penyebaran misinformasi, semakin hilangnya kepercayaan terhadap lembaga seperti media dan pemerintah, otomatisasi massal pekerjaan kreatif dan jurnalistik, dan kemunduran ke dunia fantasi yang dihasilkan oleh AI[8].[13] Media sintetis adalah bentuk terapan dari imajinasi buatan.[9]
Sejarah
Pra 1950an
Media sintetis sebagai proses seni otomatis berasal dari automata peradaban Yunani kuno, di mana para penemu seperti Daedalus dan Hero dari Alexandria merancang mesin yang mampu menulis teks, menghasilkan suara, dan memutar musik[10]. Tradisi hiburan berbasis robot berkembang pesat sepanjang sejarah, dengan kemampuan makhluk mekanis yang tampaknya ajaib untuk meniru kreativitas manusia sering kali menarik perhatian banyak orang di seluruh Eropa[11], Tiongkok[12], India[13], dan seterusnya. Hal baru otomatis lainnya seperti Musikalisches WüRfelspiel (Permainan Dadu Musikal) karya Johann Philipp Kirnberger pada tahun 1757 juga menghibur penonton[14].
Terlepas dari kemampuan teknis mesin-mesin ini, bagaimanapun, tidak ada yang mampu menghasilkan konten asli dan sepenuhnya bergantung pada desain mekanisnya.
Munculnya kecerdasan buatan
Bidang penelitian AI lahir di sebuah bengkel di Dartmouth College pada tahun 1956, [20] melahirkan kemunculan komputasi digital yang digunakan sebagai media seni sekaligus kebangkitan seni generatif[15]. Eksperimen awal dalam seni yang dihasilkan kecerdasan buatan mencakup karya Suite Illiac, sebuah komposisi yang dibuat pada tahun 1957 untuk kuartet gesek yang secara umum disepakati sebagai karya musik pertama yang disusun oleh komputer elektronik[16]. Lejaren Hiller bekerja sama dengan Leonard Issacson memprogram komputer ILLIAC I (Illinois Automatic Computer) di Universitas Illinois Urbana-Champaign. Kedua profesor tersebut menghasilkan materi komposisi untuk Kuartet Senar bernomor 4.
Pada tahun 1960, seorang peneliti Rusia bernama R. Kh. Zaripov menerbitkan makalah pertama di dunia tentang penyusunan musik algoritmik menggunakan komputer "Ural-1"[17].
Pada tahun 1965, seorang penemu bernama Ray Kurzweil menayangkan karya perdana berupa musik piano yang dibuat oleh komputer yang mampu mengenali pola dalam berbagai komposisi. Komputer kemudian dapat menganalisis dan menggunakan pola-pola ini untuk membuat melodi baru. Komputer itu memulai debutnya di program I've Got a Secret karya Steve Allen, dan membuat bingung pembawa acara yang juga seorang bintang film, Harry Morgan mencoba menerka rahasia Ray[18].
Sebelum tahun 1989, jaringan saraf tiruan telah digunakan untuk memodelkan aspek kreativitas tertentu. Peter Todd di tahun 1989 pertama kali melatih jaringan saraf untuk mereproduksi melodi musik dari serangkaian pelatihan karya musik. Kemudian jaringan tersebut menggunakan algoritma perubahan untuk mengubah parameter input jaringan. Jaringan tersebut mampu menghasilkan musik baru secara acak dengan cara yang sangat tidak terkendali[19].
Pada tahun 2014, Ian Goodfellow dan rekan-rekannya mengembangkan kelas baru sistem pembelajaran mesin: Jaringan Adversarial Generatif atau GAN[20]. Dua jaringan saraf saling bersaing satu sama lain dalam sebuah permainan (dalam konteks teori permainan, seringkali tetapi tidak selalu dalam bentuk permainan zero-sum). Dengan adanya set pelatihan, teknik ini belajar menghasilkan data baru dengan statistik yang sama dengan set pelatihan. Misalnya, GAN yang terlatih dalam fotografi dapat menghasilkan foto-foto baru yang setidaknya terlihat asli terhadap pengamatan manusia serta memiliki banyak karakteristik realistis. Meskipun awalnya diusulkan sebagai bentuk model generatif untuk pembelajaran tanpa pengawasan, GAN juga terbukti berguna untuk [[Pemelajaran semi terawasi|pembelajaran semi terawasi[21] , pemelajaran terarah, dan pembelajaran penguatan mendalam[22]. Dalam seminar tahun 2016, Yann LeCun menggambarkan GANs sebagai "ide paling keren dalam pembelajaran mesin dalam dua puluh tahun terakhir"[23].
Pada tahun 2017, Google meluncurkan transformers[24], sebuah arsitektur jaringan saraf jenis baru yang dikhususkan untuk pemodelan bahasa yang memungkinkan kemajuan pesat dalam pemrosesan bahasa alami. Transformers terbukti mampu melakukan generalisasi tingkat tinggi, memungkinkan jaringan seperti GPT-3 dan Jukebox dari OpenAI untuk menyintesis teks dan musik masing-masing pada tingkat yang mendekati kemampuan seperti manusia[25][26]. Ada beberapa upaya untuk menggunakan GPT-3 dan GPT-2 dalam penulisan skenario, contohnya seperti pembuatan film pendek Italia Frammenti di Anime Meccaniche yang ditulis oleh GPT-2[27] dan sebuah narasi komedi seperti pada film pendek berjudul Solicitors yang ditulis oleh Calamity AI menggunakan GPT-3[28].
Kekhawatiran dan kontroversi
Terlepas dari serangan organisasi, organisasi politik dan pemimpin lebih terdampak dari video deepfake. Pada tahun 2022, sebuah video deepfake dirilis saat presiden Ukraina menyerukan penyerahan perang melawan Rusia. Video tersebut memperlihatkan presiden Ukraina menyuruh tentaranya untuk meletakkan senjata dan menyerah[29].[88]
Deepfake telah digunakan untuk memutarbalikan fakta politisi terkenal dalam video. Dalam video terpisah, wajah Presiden Argentina Mauricio Macri telah diganti dengan wajah Adolf Hitler, dan wajah Angela Merkel telah diganti dengan wajah Donald Trump[30].
Pada bulan Juni 2019, aplikasi Windows dan Linux yang dapat diunduh bebas bernama DeepNude dirilis. DeepNude menggunakan jaringan saraf tiruan khususnya Jaringan Adversarial Generatif atau GAN untuk menghilangkan pakaian dari gambar wanita. Pada 27 Juni, sang kreator menghapus aplikasi dan mengembalikan uang kepada konsumen[31].
Potensi Penggunaan dan Dampak
Teknik media sintetis melibatkan pembuatan, manipulasi, dan pengubahan data untuk meniru proses kreatif dalam skala yang jauh lebih cepat dan akurat[5].Akibatnya, potensi kegunaannya seluas kreativitas manusia itu sendiri, mulai dari merevolusi industri hiburan hingga mempercepat penelitian dan produksi akademisi. Aplikasi awalnya adalah untuk menyinkronkan gerakan bibir untuk meningkatkan keterlibatan sulih suara normal yang berkembang pesat dengan munculnya Layanan media over-the-top[32].Organisasi berita telah mengeksplorasi cara untuk menggunakan sintetis video dan teknologi media sintetis lainnya agar menjadi lebih efisien dan menarik[33]. Potensi bahaya di masa depan mencakup penggunaan kombinasi subbidang yang berbeda untuk menghasilkan berita palsu[34], kawanan bot berbahasa alami yang menghasilkan tren dan meme, bukti palsu yang dihasilkan, dan berpotensi kecanduan konten yang dipersonalisasi dan kemuduran dunia fantasi yang dihasilkan AI dalam realitas virtual[8].
Bot penghasil teks tingkat lanjut berpotensi digunakan untuk memanipulasi platform media sosial melalui taktik seperti astroturfing[35].
Generator bahasa alami berbasis pembelajaran penguatan mendalam berpotensi digunakan untuk membuat chatbot canggih yang dapat meniru ucapan alami manusia.[36]
Salah satu kasus penggunaan untuk generasi bahasa alami adalah untuk menghasilkan atau membantu penulisan novel dan cerita pendek, sementara perkembangan potensial lainnya adalah editor gaya untuk meniru penulis profesional[37].
Kombinasi sintetis ucapan dan deepfake telah digunakan untuk mengubah ucapan aktor secara otomatis ke dalam berbagai bahasa tanpa kelas bahasa atau perlu pengambilan ulang jika terjadi kesalahan[38]. Ini juga dapat digunakan oleh perusahaan untuk orientasi karyawan, eLearning, explainer, dan video petunjuk[39].
GANs dapat digunakan untuk membuat foto model fesyen imajiner tanpa perlu menyewa model, fotografer, penata rias, atau membayar studio dan transportasi[40]. GAN dapat digunakan untuk membuat kampanye iklan mode termasuk kelompok model yang lebih beragam, yang dapat meningkatkan niat untuk membeli di antara orang-orang yang mirip dengan model[41]. GAN juga dapat digunakan untuk membuat potret, lanskap, dan sampul album. Kemampuan GAN untuk menghasilkan tubuh manusia fotorealistik menghadirkan tantangan bagi industri seperti pemodelan fesyen, yang mungkin berisiko tinggi untuk diotomatisasi[42].
Pada tahun 2019, Dadabots meluncurkan musik dengan aliran death metal yang dihasilkan AI dan tetap berlangsung tanpa jeda[43].
Manipulasi foto bertenaga jaringan saraf berpotensi mendukung perilaku rezim yang totaliter dan absolut[44]. Pemerintah atau komunitas totaliter yang cukup paranoid dapat terlibat dalam penghapusan total sejarah dengan menggunakan segala macam teknologi sintetis, mengarang sejarah dan kepribadian serta bukti keberadaan mereka setiap saat. Bahkan dalam masyarakat yang rasional dan demokratis, kelompok sosial dan politik tertentu dapat menggunakan sintetis untuk membuat kepompong budaya, politik, dan ilmiah yang sangat mengurangi atau bahkan menghancurkan kemampuan publik untuk menyepakati fakta-fakta objektif dasar. Sebaliknya, keberadaan media sintetis akan digunakan untuk mendiskreditkan sumber berita faktual dan fakta ilmiah sebagai berpotensi palsu"[45].
^Koetsier, Teun (Mei 2001). "On the prehistory of programmable machines: musical automata, looms, calculators". Mechanism and Machine Theory. 36 (5): 589–603. doi:10.1016/S0094-114X(01)00005-2.Parameter |access-date= membutuhkan |url= (bantuan)
^Nierhaus, Gerhard (2009). Algorithmic composition: paradigms of automated music generation. Wien: Springer. ISBN978-3-211-75539-6.Parameter |access-date= membutuhkan |url= (bantuan)
^McCorduck, Pamela (2019). Machines who think: a personal inquiry into the history and prospects of artificial intelligence (edisi ke-25th anniversary update). Boca Raton: CRC Press, Taylor & Francis Group. ISBN978-1-56881-205-2.Parameter |access-date= membutuhkan |url= (bantuan)
^Bharucha, Jamshed J.; Todd, Peter M. (24/1989). "Modeling the Perception of Tonal Structure with Neural Nets". Computer Music Journal. 13 (4): 44. doi:10.2307/3679552.Periksa nilai tanggal di: |date= (bantuan); Parameter |access-date= membutuhkan |url= (bantuan)
^Salimans, Tim; Goodfellow, Ian; Zaremba, Wojciech; Cheung, Vicki; Radford, Alec; Chen, Xi (2016). "Improved Techniques for Training GANs". arΧiv:1606.03498 [cs.LG].
^Ho, Jonathan; Ermon, Stefano (2016). "Generative Adversarial Imitation Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. 29. Diakses tanggal 18 Desember 2024.