ألكسنت

مقارنة بين طبقات لينت وألكسنت التلافيفية و طبقات التجميع والطبقات الكثيفة (يجب أن يكون حجم صورة في شبكةألكسنت 227×227×3، بدلاً من 224×224×3، لذا ستظهر الحسابات بشكل صحيح. ذكرت الورقة الأصلية أرقامًا مختلفة، لكن أندريه كارباثي، الرئيس السابق لقسم رؤية الكمبيوتر في شركة تيسلا، قال بأنها يجب أن تكون 227×227×3 (قال أن أليكس لم يوضح سبب وضعه 224×224×3).يجب أن يكون الالتواء التالي 11×11 مع الخطوة 4: 55×55×96 (بدلاً من 54×54×96 ). سيتم حسابه، على سبيل المثال، على النحو التالي: [(عرض الإدخال 227 - عرض النواة 11) / الخطوة 4] + 1 = [(227 - 11) / 4] + 1 = 55. بما أن مخرجات النواة هي نفسها الطول كالعرض ومساحته 55×55).

ألكسنت هي بنية شبكة عصبية تلافيفية، صممها أليكس كريجفسكي بالتعاون مع إيليا سوتسكيفر وجيوفري هينتون، مشرف أليكس كريجفسكي في مرحلة الدكتوراة.[1][2] شاركت ألكسنت في تحدي إميج نت للتعرف البصري في 30 سبتمبر 2012.[3] حققت الشبكة نسبة الخطأ الأقل من بين الخمسة الأوائل بنسبة 15.3%، أي أقل من 10.8 نقطة مئوية من نسبة الحاصل علي المرتبة الثانية. كانت النتيجة الأولية للورقة الأصلية هي أن عمق النموذج كان ضروريًا لأدائه العالي، والذي كان مكلفًا من الناحية الحسابية، ولكنه أصبح ممكنًا بسبب استخدام وحدات معالجة الرسومات أثناء تدريب التصميم.[2]

مقدمة

فوزألكسنت بأسرع تطبيق للشبكات العصبية التلافيفية على وحدة معالجة الرسومات لم يكن الأول في مسابقة التعرف على الصور. فقد كانت أول شبكة تلافيفية عصبية تنفذ على وحدة معالجة الرسوميات عام (2006) من تنفيذ تشيلابيلا أسرع بأربع مرات من التنفيذ المكافئ على وحدة المعالجة المركزية.[4] كذلك يوجد نموذج تصميمي أخر سمي الشبكة التلافيفية العميقة من تقديم دان سيريان عام 2011 والذي قدم من قبل معهد دالي مولي لأبحاث الذكاء الاصطناعي والذي كان أسرع 60 مرة عند تنفيذه على وحدة معالجة الرسومات [5] و الذى تفوق على نسخته السابقة في إصدار أحدث في أغسطس 2011.[6] كما فازت شبكة دان سيريان التلافيفة العميقة بما لا يقل عن أربع مسابقات للصور بين 15 مايو 2011 و10 سبتمبر 2012.[7][8] أيضا قدمت تحسناً بصورة ملحوظة في أفضل أداء على العديد من قواعد بيانات للصور المختلفة.[9]

وفقًا للورقة البحثية التي قدمت تصميم ألكسنت [2] فإن تصميم شبكة دان سيريان الأول يشبه تصميم شبكة ألكسنت. نفذ كليهما في الأصل باستخدام منصة الحوسبة المتوزعة كودا للتشغيل والتي تدعم وحدة معالجة الرسوميات. في الواقع، يعد كليهما مجرد أشكال مختلفة لتصميمات الشبكات التلافيفة التي قدمها يان ليكون عام 1989.[10][11] والذي طبق خوارزمية الانتشار الخلفي على نسخ مختلفة من بنية الشبكات العصبية التلافيفة الأصلية لصاحبها كونيهيكو فوكوشيما والتي كانت تسمى آنذاك نيوكونييترون.[12][13] عُدلت البنية لاحقًا بواسطة طريقة جيه ونج التي تسمى مضاعفة المرشحات .[8][14] في عام 2015، تفوقت الشبكة التلافيفة العميقة جدًا التابعة لشركة مايكروسوفت للأبحاث -آسيا والتي تحتوي على أكثر من 100 طبقة على ألكسنت في الأداء، وفازت في مسابقة أميج نت عام 2015.[15]

بنية الشبكة

تحتوي ألكسنت على ثماني طبقات؛ كانت الخمس الأولى منها عبارة عن طبقات تلافيفية، ويتبع بعضها طبقات تسمى بطبقات التجميع وفق القيمة القصوى، وكانت أخر ثلاث طبقات عبارة عن طبقات الاتصال الكامل. قُسمت الشبكة، باستثناء الطبقة الأخيرة، إلى نسختين كل منهما تعمل على وحدة معالجة رسومات منفصلة.[2] يمكن كتابة الهيكل بأكمله كـما يلي: حيث:

  • CNN هي شبكة عصبونية التفافية
  • RN وهي تطبيع الاستجابة المحلية
  • MP و هي طبقة تجميع وفق القيمة القصوى
  • FC و هي طبقة الاتصال الكامل (باستخدام دالة التفعيل من نوع وحدة التصحيح الخطي )
  • Linear و هي طبقة اتصال كامل بدون دالة تفعيل
  • DO و هي تقنية تعطيل جزئي لبعض الخلايا العصبية الإصطناعية في الشبكة

كما استخدمت دالة تفعيل وحدة التصحيح الخطي من النوع الغير المشبعة، والتي أظهرت تحسنًا في أداء التدريب على دالة الظل الزائدية ودالة سينية.[2]

أهمية بنية ألكسنت

تعتبر ألكسنت واحدة من أكثر الأبحاث المنشورة تأثيرًا في الرؤية الحاسوبية، حيث حفزت العديد من الأبحاث المنشورة التي تستخدم الشبكات العصبية التلافيفية ووحدات معالجة الرسوميات لتسريع التعلم العميق.[16] اعتبارًا من أوائل عام 2023، استشهد ببحث ألكسنت أكثر من 120,000 مرة وفقًا لـموقع جوجل سكولار.[17]

المصادر

  1. ^ Gershgorn، Dave (26 يوليو 2017). "البيانات التي حولت أبحاث الذكاء الاصطناعي – وربما العالم". Quartz. مؤرشف من الأصل في 2023-11-08.
  2. ^ ا ب ج د ه Krizhevsky، Alex؛ Sutskever، Ilya؛ Hinton، Geoffrey E. (24 مايو 2017). "تصنيف ImageNet مع الشبكات العصبية التلافيفية العميقة" (PDF). Communications of the ACM. ج. 60 ع. 6: 84–90. DOI:10.1145/3065386. ISSN:0001-0782. S2CID:195908774. مؤرشف من الأصل (PDF) في 2023-10-28.
  3. ^ "مسابقة ImageNet للتعرف البصري على نطاق واسع 2012 (ILSVRC2012)". image-net.org. مؤرشف من الأصل في 2023-11-08.
  4. ^ Kumar Chellapilla؛ Sidd Puri؛ Patrice Simard (2006). "شبكات عصبية تلافيفية عالية الأداء لمعالجة المستندات". في Lorette، Guy (المحرر). ورشة العمل الدولية العاشرة حول الحدود في التعرف على الكتابة اليدوية. Suvisoft.
  5. ^ Cireșan، Dan؛ Ueli Meier؛ Jonathan Masci؛ Luca M. Gambardella؛ Jurgen Schmidhuber (2011). "شبكات عصبية تلافيفية مرنة وعالية الأداء لتصنيف الصور" (PDF). وقائع المؤتمر الدولي الثاني والعشرون المشترك للذكاء الاصطناعي-Volume Volume Two. ج. 2: 1237–1242. مؤرشف من الأصل (PDF) في 2023-10-27. اطلع عليه بتاريخ 2013-11-17.
  6. ^ "IJCNN 2011 جدول نتائج المسابقة". OFFICIAL IJCNN2011 COMPETITION (بالإنجليزية الأمريكية). 2010. Archived from the original on 2023-10-27. Retrieved 2019-01-14.
  7. ^ Schmidhuber, Jürgen (17 Mar 2017). "تاريخ مسابقات رؤية الكمبيوتر التي فازت بها شبكات CNN العميقة على وحدة معالجة الرسومات" (بالإنجليزية الأمريكية). Archived from the original on 2023-10-27. Retrieved 2019-01-14.
  8. ^ ا ب Schmidhuber، Jürgen (2015). "التعلم العميق". Scholarpedia. ج. 10 ع. 11: 1527–54. CiteSeerX:10.1.1.76.1541. DOI:10.1162/neco.2006.18.7.1527. PMID:16764513. S2CID:2309950. مؤرشف من الأصل في 2023-09-18.
  9. ^ Cireșan، Dan؛ Meier، Ueli؛ Schmidhuber، Jürgen (يونيو 2012). "شبكات عصبية عميقة متعددة الأعمدة لتصنيف الصور". مؤتمر IEEE 2012 حول رؤية الكمبيوتر والتعرف على الأنماط. New York, NY: معهد مهندسي الكهرباء والإلكترونيات (IEEE). ص. 3642–3649. arXiv:1202.2745. CiteSeerX:10.1.1.300.3283. DOI:10.1109/CVPR.2012.6248110. ISBN:978-1-4673-1226-4. OCLC:812295155. S2CID:2161592.
  10. ^ LeCun، Y.؛ Boser، B.؛ Denker، J. S.؛ Henderson، D.؛ Howard، R. E.؛ Hubbard، W.؛ Jackel، L. D. (1989). "تطبيق الانتشار الخلفي على التعرف على الرمز البريدي المكتوب بخط اليد". الحساب العصبي. MIT Press - Journals. ج. 1 ع. 4: 541–551. DOI:10.1162/neco.1989.1.4.541. ISSN:0899-7667. OCLC:364746139. مؤرشف من الأصل (PDF) في 2024-03-18.
  11. ^ LeCun، Yann؛ Léon Bottou؛ Yoshua Bengio؛ Patrick Haffner (1998). "تطبيق التعلم القائم على التدرج للتعرف على الوثائق" (PDF). مجلد مؤتمر IEEE. ج. 86 ع. 11: 2278–2324. CiteSeerX:10.1.1.32.9552. DOI:10.1109/5.726791. S2CID:14542261. مؤرشف من الأصل (PDF) في 2023-10-30. اطلع عليه بتاريخ 2016-10-07.
  12. ^ Fukushima، K. (2007). "Neocognitron". Scholarpedia. ج. 2 ع. 1: 1717. Bibcode:2007SchpJ...2.1717F. DOI:10.4249/scholarpedia.1717.
  13. ^ Fukushima، Kunihiko (1980). "Neocognitron: نموذج شبكة عصبية ذاتية التنظيم لآلية التعرف على الأنماط التي لا تتأثر بالتحول في الموضع" (PDF). علم التحكم الآلي البيولوجي. ج. 36 ع. 4: 193–202. DOI:10.1007/BF00344251. PMID:7370364. S2CID:206775608. مؤرشف من الأصل (PDF) في 2023-10-27. اطلع عليه بتاريخ 2013-11-16.
  14. ^ Weng، J؛ Ahuja، N؛ Huang، TS (1993). "تعلم التعرف على الكائنات ثلاثية الأبعاد وتقسيمها من صور ثنائية الأبعاد". وقائع المؤتمر الدولي الرابع في الرؤية الحاسوبية: 121–128.
  15. ^ He، Kaiming؛ Zhang، Xiangyu؛ Ren، Shaoqing؛ Sun، Jian (2016). "التعلم المتبقي العميق للتعرف على الصور". مؤتمر IEEE 2016 حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR). ص. 770–778. arXiv:1512.03385. DOI:10.1109/CVPR.2016.90. ISBN:978-1-4673-8851-1. S2CID:206594692.
  16. ^ Deshpande، Adit. "أوراق التعلم العميق التسعة التي تحتاج إلى معرفتها (فهم شبكة CNN الجزء 3)". adeshpande3.github.io. مؤرشف من الأصل في 2023-10-22. اطلع عليه بتاريخ 2018-12-04.
  17. ^ ورقة AlexNet على جوجل سكولار نسخة محفوظة 2023-06-23 على موقع واي باك مشين.