Pada awal 1993, prosesor sinyal digital digunakan sebagai akselerator jaringan saraf misalnya untuk mempercepat perangkat lunak pengenalan karakter optik.[5] Pada 1990-an, ada juga upaya untuk membuat sistem throughput paralel tinggi untuk workstation yang ditujukan untuk berbagai aplikasi, termasuk simulasi jaringan saraf.[6][7][8] Akselerator berbasis FPGA juga pertama kali dieksplorasi pada 1990-an untuk inferensi [9] dan pelatihan.[10] ANNA adalah akselerator CMOS jaring saraf yang dikembangkan oleh Yann LeCun.[11]
Komputasi heterogen
Komputasi heterogen mengacu pada menggabungkan sejumlah prosesor khusus dalam satu sistem, atau bahkan satu chip, masing-masing dioptimalkan untuk jenis tugas tertentu. Arsitektur seperti mikroprosesor sel[12] memiliki fitur yang secara signifikan tumpang tindih dengan akselerator kecerdasan buatan termasuk: dukungan untuk aritmatika presisi rendah, arsitektur aliran data, dan memprioritaskan 'throughput' daripada latensi. Mikroprosesor sel kemudian diterapkan pada sejumlah tugas [13][14][15] termasuk kecerdasan buatan.[16][17]
Pada 2000-an, CPU juga mendapatkan unit SIMD yang semakin lebar, didorong oleh beban kerja video dan game; serta dukungan untuk tipe data presisi rendah yang dikemas.[18]
Penggunaan GPU
Unit pemrosesan grafis atau GPU adalah perangkat keras khusus untuk manipulasi gambar dan perhitungan properti gambar lokal. Dasar matematis dari jaringan saraf dan manipulasi gambar adalah serupa, tugas paralel memalukan yang melibatkan matriks, menyebabkan GPU menjadi semakin digunakan untuk tugas pembelajaran mesin.[19][20][21] Hingga 2016[update], GPU populer untuk pekerjaan AI, dan mereka terus berkembang ke arah untuk memfasilitasi pembelajaran yang mendalam, baik untuk pelatihan [22] dan kesimpulan dalam perangkat seperti mobil otonom.[23] Pengembang GPU seperti Nvidia NVLink sedang mengembangkan kemampuan penghubung tambahan untuk jenis beban kerja aliran data yang berasal dari AI.[24] Karena GPU semakin banyak diterapkan pada akselerasi AI, produsen GPU telah memasukkan perangkat keras khususjaringan saraf untuk lebih mempercepat tugas-tugas ini.[25][26]Inti tensor dimaksudkan untuk mempercepat pelatihan jaringan saraf.[26]
Penggunaan FPGA
Kerangka kerja pembelajaran yang dalam masih terus berkembang, sehingga sulit untuk merancang perangkat keras khusus. Perangkat yang dapat dikonfigurasi ulang seperti field-programmable gate arrays (FPGA) membuatnya lebih mudah untuk mengembangkan perangkat keras, kerangka kerja, dan perangkat lunak bersama.[9][27][28]
Microsoft telah menggunakan chip FPGA untuk mempercepat inferensi.[29][30] Penerapan FPGA untuk akselerasi AI memotivasi Intel untuk mengakuisisi Altera dengan tujuan mengintegrasikan FPGA dalam CPU server, yang akan mampu mempercepat AI serta tugas-tugas tujuan umum.[31]
^"The end of general purpose computers (not)".This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)
^Ramacher, U.; Raab, W.; Hachmann, J.A.U.; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Glass, J.; Wurz, A. (1995). Proceedings of 9th International Parallel Processing Symposium. hlm. 774–781. doi:10.1109/IPPS.1995.395862. ISBN978-0-8186-7074-9.