فترة التعطيل

يستخدم مصطلح التوقف أو فترة التعطيل downtime (أو انقطاع (النظام) system outage أو جفاف (النظام) system drought بشكل عام) للإشارة إلى الفترات التي يكون فيها النظام غير متاح أو لا يعمل. عدم توفر النظام unavailability هو نسبة الفترة الزمنية التي يكون فيها النظام غير متاح أو غير متصل بالإنترنت. يحدث هذا عادةً نتيجة فشل النظام في العمل بسبب حدث غير مخطط له، أو بسبب الصيانة الروتينية (حدث مخطط له).

وتُطبق هذه المصطلحات عادةً على شبكات الاتصالات وخوادم الحاسوب. الأسباب الشائعة لانقطاعات الشبكة غير المخطط لها هي فشل النظام (مثل انهيار النظام) أو فشل الاتصالات (المعروف باسم انقطاع الشبكة أو جفاف الشبكة بشكل عام). بالنسبة لانقطاعات الخدمة بسبب مشكلات في أنظمة الحاسوب العامة، يمكن استخدام مصطلح انقطاع الحاسوب (كما يُطلق عليه أيضًا انقطاع تكنولوجيا المعلومات أو جفاف تكنولوجيا المعلومات).

ويُستخدم المصطلح أيضًا بشكل شائع في البيئات الصناعية فيما يتعلق بالأعطال في معدات الإنتاج الصناعي. تقوم بعض المرافق بقياس وقت التوقف عن العمل أثناء نوبة العمل، أو خلال فترة 12 أو 24 ساعة. وكم الشائع تشخيص كل حالة توقف لتحديد سبب كل حدث وهل يعود إلى سبب تشغيلي أو كهربائي أو ميكانيكي.

عكس مصطلح التوقف أو التعطيل هو فترة التشغيل.

الأنواع

يمكن أن يكون للمعايير الصناعية لمصطلح "فترة الانقطاع Outage Duration" أو "فترة الصيانة Maintenance Duration" نقاط بداية واكتمال مختلفة، وبالتالي يجب استخدام التوضيح التالي لتجنب النزاعات في تنفيذ العقد:

  1. "المفتاح Turnkey" هذا هو الأكثر إثارة للاهتمام من بين جميع أنواع انقطاعات التشغيل. تبدأ عملية الانقطاع أو الصيانة عندما يضغط مُشغل المصنع أو المعدات على زر الإغلاق أو الإيقاف لبدء إيقاف التشغيل. ما لم يُشار إلى خلاف ذلك، يعتبر الانقطاع أو الصيانة مكتملًا عندما يعود المصنع أو المعدات إلى التشغيل الطبيعي وجاهزة لبدء التصنيع أو جاهزة للمزامنة مع النظام أو الشبكة أو جاهزة لأداء المهام كمضخة أو ضاغط.
  2. "قاطع إلى قاطع Breaker to Breaker" يبدأ هذا الانقطاع أو الصيانة بإزالة مُشغل المصنع أو المعدات لدائرة الطاقة (قاطع الطاقة الرئيسي في وضع "إيقاف التشغيل" أو "الفصل" أو "التشغيل والتبريد On-Cooldown")، وليس دائرة التحكم من التشغيل. سيسمح هذا أيضًا بتبريد المعدات حتى درجة حرارة الغرفة بحيث يمكن الاستعداد لأعمال الانقطاع/الصيانة أو البدء فيها. اعتمادًا على أنواع المعدات، يمكن أن يكون انقطاع التيار الكهربائي من قاطع إلى قاطع مفيدًا إذا جرى التعاقد مع أطراف خارجية للقيام بالصيانة المرتبطة بالتحكم، حيث يمكن إجراء هذا النوع من أعمال الصيانة بينما لا تزال المعدات الرئيسية في وضع التبريد أو الاستعداد. ما لم يُشار إلى خلاف ذلك، يعتبر هذا النوع من الانقطاع كاملاً عندما يجري إعادة تنشيط دائرة الطاقة عن طريق تشغيل قاطع الطاقة.
  3. "استكمال عملية القفل/الوضع تحت العلامة Completion of Lock-out/Tag-out" تبدأ هذه الانقطاعات أو الصيانة (التي يُخلط بينها أحيانًا على أنها "فترة تبريد إيقاف التشغيل" ولكنها ليست نفس الشيء) عندما يقوم مُشغل المصنع أو المعدات بإزالة دائرة الطاقة وفصل دائرة التحكم وإجراء تحييد آخر لمصادر الطاقة والخطر المحتملة (عادةً ما تسمى بالقفل/الوضع تحت العلامة "Lock-Out, Tag-Out أو اختصارًا LOTO"). عادةً ما تكون هذه النقطة من فترة الصيانة هي المرحلة الأخيرة من مرحلة بدء الانقطاع قبل بدء العمل الفعلي في المنشأة أو المصنع أو المعدات. يجب أن يجري التحقق من إجراءات السلامة دائمًا بعد نشاط LOTO، قبل إجراء أي عمل. ما لم يُذكر خلاف ذلك، يُعتبر هذا النوع من الانقطاع كاملاً عندما تصل المعدات إلى الاكتمال الميكانيكي وتكون جاهزة للوضع على الدوران البطيء للعديد من المعدات الدوارة الثقيلة، أو اختبار الصدمات أو فحص الدوران للمحركات، وما إلى ذلك، ولكن يجب اتباع تصريح العودة أو العمل وفقًا لإجراءات LOTO.

لا ينبغي احتساب أي اختبارات عبر الإنترنت أو اختبارات الأداء أو الضبط المطلوبة ضمن مدة الانقطاع، حيث تجري هذه الأنشطة عادةً بعد اكتمال انقطاع التيار أو حدث الصيانة وهي خارجة عن سيطرة معظم مقاولي الصيانة.

الخواص

قد يكون التوقف غير المخطط له نتيجة لخلل في المعدات، وما إلى ذلك.

تصنيفات انقطاع الاتصالات

يمكن أن يحدث التوقف عن العمل بسبب فشل في الأجهزة (المعدات المادية)، أو (معدات التحكم المنطقي)، أو معدات الربط المتبادلة (مثل الكابلات والمرافق وأجهزة التوجيه،...)، أو النقل (اللاسلكي، الميكروويف، الأقمار الصناعية)، أو تجاوز السعة (حدود النظام).

يمكن أن تحدث الأعطال بسبب التلف أو الفشل أو التصميم أو الإجراءات (الاستخدام غير السليم من قبل البشر) أو الهندسة (كيفية الاستخدام والنشر) أو التحميل الزائد (موارد المرور أو النظام التي تتعرض لضغوط تتجاوز الحدود المصممة لها) أو البيئة (أنظمة الدعم مثل الطاقة وتكييف الهواء والتهوية) أو (انقطاعات مُخطط لها للنظام لغرض مثل تحديث البرامج وإضافة المعدات) أو غير ذلك (لا شيء مما سبق ولكنه معروف) أو غير معروف.

يمكن أن تقع مسؤولية الفشل على عاتق العميل/مزود الخدمة، أو البائع/المورد، أو المَرافق، أو الحكومة، أو المقاول، أو العميل النهائي، أو الفرد العام، أو فِعل الطبيعة، أو شيء آخر (لا شيء مما سبق ولكنه معروف)، أو غير معروف.

التأثير

يمكن أن يكون لانقطاعات الخدمة الناجمة عن فشل النظام تأثيرًا خطيرًا على مستخدمي أنظمة الحاسوب/الشبكات، وخاصة تلك الصناعات التي تعتمد على خدمة تعمل على مدار 24 ساعة تقريبًا مثل:

كما يمكن أن يتأثر أيضًا مستخدمو مزود خدمة الإنترنت وغيرهم من عملاء شبكة الاتصالات.

يمكن للشركات أن تخسر أعمالها بسبب انقطاع الشبكة أو قد تتخلف عن سداد أحد العقود أو الوفاء به في الزمن المطلوب، مما يؤدي إلى خسائر مالية. وفقًا لتقرير إدارة البيانات السحابية لعام 2019 الصادر عن شركة Veeam، تواجه المؤسسات فترات تعطل غير مخطط لها، في المتوسط، من 5 إلى 10 مرات سنويًا، ويبلغ متوسط تكلفة ساعة واحدة من التوقف ما يزيد عن 102 ألف دولارًا.[1]

يمكن للأشخاص أو المؤسسات المتأثرة بفترة التوقف عن العمل أن تكون أكثر حساسية لجوانب معينة مثل:

  • يتأثر البعض أكثر بطول فترة الانقطاع - فهم يهتمون بالوقت الذي يستغرقه حل تلك المشكلة
  • وهناك آخرون حساسون لتوقيت الانقطاع - فالانقطاعات خلال ساعات الذروة تؤثر عليهم أكثر من غيرها

المستخدمون الأكثر حساسية لهذه الأعطال هم أولئك الذين يحتاجون إلى أن يكونوا متاحين دائمًا (توفر عالٍ high availability).

انقطاعات شهيرة

في يوم الأم، الأحد الموافق 8 مايو 1988، اندلع حريق في غرفة المفاتيح الرئيسة في المكتب المركزي لشركة الهاتف في إلينوي بيل في هينسديل. يعد هذا المرفق أحد أكبر أنظمة الهواتف في الولاية، حيث يعالج أكثر من 3.5 مليون مكالمة يوميًا أثناء خدمة 38 ألف عميل، بما في ذلك العديد من الشركات والمستشفيات ومطاري أوهير وميدواي في شيكاغو.[2]

في 15 يناير 1990، تكرر انقطاع خدمة شبكة AT&T وعودة الخدمة ثم انقطاعها بأكملها تقريبًا من الخدمة لمفاتيح 4ESS، مما أدى إلى تعطيل الخدمة لمسافات طويلة في جميع أنحاء الولايات المتحدة. وتبددت المشكلة من تلقاء نفسها عندما تباطأت حركة مرور البيانات عبر الشبكة. وقد عُثر على خطأ في البرنامج يرجع إليه السبب في ذلك.[3]

فقدت شركة AT&T شبكة تبديل الأطر Frame Relay الخاصة بها لمدة 26 ساعة في 13 أبريل 1998.[4] وقد أثر هذا على آلاف العملاء، وكانت المعاملات المصرفية إحدى الضحايا. وقد فشلت شركة AT&T في تلبية اتفاقية مستوى الخدمة في عقودها مع العملاء واضطرت إلى إعادة الأموال (تعويضات)[5] إلى 6600 حساب عميل، بتكلفة ملايين الدولارات.

مرت خدمة إكس بوكس Xbox Live بفترة توقف متقطعة خلال موسم العطلات 2007-2008 والذي استمر لمدة ثلاثة عشر يومًا.[6] وذُكر أن الطلب المتزايد من مشتري Xbox 360 (أكبر عدد من عمليات التسجيل للمستخدمين الجدد في تاريخ Xbox Live) كان سبب التوقف؛ ولإصلاح مشكلات الخدمة، عرضت شركة Microsoft على مستخدميها فرصة الحصول على لعبة مجانية.[7]

بدأ انقطاع شبكة بلاي ستيشن التابعة لشركة سوني في 20 أبريل 2011، وجرى إصلاحه تدريجيًا في 14 مايو 2011، بدءًا من الولايات المتحدة. يعد هذا الانقطاع هو أطول فترة زمنية تظل فيها شبكة بلاي ستيشن PSN غير متصلة بالإنترنت منذ إنشائها في عام 2006. وذكرت شركة سوني أن المشكلة نتجت عن اختراق خارجي أدى إلى مصادرة المعلومات الشخصية. أعلنت شركة سوني في 26 أبريل 2011، أن كمية كبيرة من بيانات المستخدمين قد تسربت (سُرقت) من خلال نفس الاختراق الذي أدى إلى توقف الخدمة.[8]

فشل محول رايد Ryde التابع لشركة تلسترا Telstra في أواخر عام 2011 بعد تسرب المياه إلى لوحة المفاتيح الكهربائية بسبب الطقس الرطب المستمر. يعد محول رايد أحد أكبر المحولات من حيث المساحة في أستراليا، حيث أثر على أكثر من 720 ألف خدمة.

توقف مركز بيانات ميامي التابع لشركة ServerAxis عن العمل دون سابق إنذار في 29 فبراير 2016، ولم يمكن استعادته أبدًا. وقد أثر هذا على العديد من مقدمي الخدمات ومئات المواقع الإلكترونية. أثر الانقطاع على تغطية بطولة كرة السلة النسائية للقسم الأول من NCAA لعام 2016 حيث كان موقع WBBState، أحد المواقع المتأثرة، هو المزود الأكثر شمولاً لإحصائيات كرة السلة النسائية المتاحة.[9]

تعرضت منصة الألعاب روبلوكس Roblox لانقطاع في شهر أكتوبر 2021، أثناء حدث شركة جبوتلي Chipotle الخاص بها. اعتقد العديد من المستخدمين أن السبب في ذلك هو الحدث، لأنه حظي باستقبال واسع النطاق، حيث تمكن المستخدمون من الحصول على بوريتو تشيبوتلي مجانًا خلاله. كان الانقطاع هو أطول فترة توقف لمنصة Roblox، حيث استمر لمدة 3 أيام.[10][11][12]

في 8 يوليو 2022، عانت شركة روجرز من انقطاع كبير على مستوى البلاد major nationwide outage في كندا. وقد أثر هذا في الوقت نفسه على الهواتف المحمولة والوصول إلى الإنترنت، مما تسبب في فشل مكالمات الطوارئ 911 والمعاملات بين البنوك، كما أدى إلى تعطيل الخدمات الحكومية.

في 19 يوليو 2024، أصدرت شركة كراودسترايك CrowdStrike تحديثًا خاطئًا لبرنامج التشغيل لبرنامج Falcon الخاص بها، مما أدى إلى تعطل أجهزة الحاسوب والخوادم والأجهزة الافتراضية التي تعمل بنظام ويندوز Windows وتكرار عملية أعادة التشغيل. وقد أثر الحادث بشكل غير مقصود على ما يقرب من 8.5 مليون جهاز حاسوب يعمل بنظام ويندوز Windows في جميع أنحاء العالم، شمل ذلك البنية التحتية الحيوية مثل خدمات 911 في ولايات مختلفة، ومطارات عديدة حول العالم. ويعتبر هذا أكبر انقطاع في تاريخ تكنولوجيا المعلومات.[13][14]

مستويات الخدمة

في اتفاقيات مستوى الخدمة، من الشائع ذكر قيمة مئوية (شهريًا أو سنويًا) يجري حسابها عن طريق قسمة مجموع فترات التوقف على إجمالي وقت فترة زمنية مرجعية (على سبيل المثال شهر). وبالتالي فإن 0% من وقت التوقف يعني أن الخادم كان متاحًا طوال الوقت، أما أي رقم آخر فيشير إلى نسبة فترة التوقف إلى فترة الاحتساب.

بالنسبة لخوادم الإنترنت، يمكن اعتبار فترات التوقف التي تزيد عن 1% سنويًا أو أسوأ أمرًا غير مقبول، حيث يعني هذا فترة توقف تزيد عن 3 أيام سنويًا. بالنسبة لتطبيقات التجارة الإلكترونية والاستخدامات الصناعية الأخرى، عادةً ما يُعتبر أي قيمة أعلى من 0.1% غير مقبولة.[15]

الاستجابة والحد من التأثير

من الواجب على مصمم الشبكة التأكد من عدم حدوث انقطاع في الشبكة. وعندما يحدث ذلك، فإن النظام المصمم جيدًا سيعمل على تقليل آثار الانقطاع بشكل أكبر من خلال وجود انقطاعات محلية يمكن اكتشافها وإصلاحها في أسرع وقت ممكن.

يجب أن تكون هناك عملية جاهزة للكشف عن الأعطال - مراقبة الشبكة - واستعادة الشبكة إلى حالة العمل - وهذا ينطوي عمومًا على فريق مكتب المساعدة الذي يمكنه استكشاف المشكلة وإصلاحها، ويتألف الفريق من مهندسين مدربين؛ وعادةً ما يكون هناك حاجة إلى فريق مكتب مساعدة منفصل من أجل معالجة مدخلات المستخدم، والتي يمكن أن تكون صعبة بشكل خاص أثناء فترة التوقف.

يمكن استخدام نظام إدارة الشبكة network managementللكشف عن المكونات المعيبة أو التالفة قبل شكاوى العملاء، مع تصحيح الخطأ بشكل استباقي.

يمكن استخدام تقنيات إدارة المخاطر لتحديد تأثير انقطاع الشبكة على المؤسسة وما هي الإجراءات التي قد تكون مطلوبة لتقليل تلك المخاطر. يمكن تقليل المخاطر عن طريق استخدام مكونات موثوقة، أو إجراء الصيانة الدورية، مثل التحديثات، أو استخدام أنظمة زائدة عن الحاجة (احتياطية) أو من خلال وجود خطة طوارئ أو خطة لاستمرارية الأعمال. يمكن للوسائل التقنية تقليل الأخطاء باستخدام أكواد تصحيح الأخطاء، أو إعادة الإرسال، أو مجموعات الاختبار وكشف الأخطاء وتصحيحها، أو مخطط التنوع diversity scheme.

أحد الأسباب الرئيسة لتوقف التشغيل هو سوء الأعدادات، حيث يحدث خطأ في التغيير المخطط له. تعتمد المؤسسات عادةً على الجهد اليدوي لإدارة عملية النسخ الاحتياطي للإعدادات، ولكن هذا يتطلب مهندسين يتمتعون بمهارات عالية ولديهم الوقت الكافي لإدارة العملية عبر شبكة متعددة البائعين. تتوفر أدوات التشغيل الآلي لإدارة النسخ الاحتياطية، ولكن هناك عدد قليل جدًا من الحلول التي تتعامل مع استرداد الإعداد المطلوب لتقليل التأثير العام للانقطاع.[16]

الانقطاع المخطط له

الانقطاع المخطط له هو نتيجة لنشاط مخطط له (مُعد مُسبقًا) من قبل مالك النظام و/أو مقدم الخدمة. يمكن استخدام هذه الانقطاعات، والتي غالبًا ما يجري جدولتها أثناء فترة الصيانة، لأداء المهام بما في ذلك ما يلي:

  • الصيانة المؤجلة، على سبيل المثال، إصلاح الأجهزة المؤجل أو إعادة التشغيل المؤجلة لتنظيف الذاكرة المشوشة.
  • التشخيص لعزل الخطأ المكتشف لإصلاحه
  • إصلاح أعطال الأجهزة
  • إصلاح خطأ في قاعدة بيانات الإعدادات أو حذف في تغيير قاعدة بيانات الإعداد الأخير
  • إصلاح خطأ في قاعدة بيانات التطبيق أو خطأ في تغيير قاعدة بيانات التطبيق الأخير
  • تصحيح البرامج/تحديثات البرامج لإصلاح خطأ ما في البرنامج.

يمكن أيضًا التخطيط لانقطاعات الخدمة نتيجة لحدث طبيعي يمكن التنبؤ به، مثل غياب الشمس Sun outageعن انظمة تعمل بالطاقة الشمسية.

يتعين جدولة فترات التوقف عن الصيانة بعناية في الصناعات التي تعتمد على أنظمة الحاسوب. في كثير من الحالات، يمكن تجنب التوقف عن العمل على مستوى النظام باستخدام ما يسمى "الترقية المتجددة أو التحديث المتجدد rolling upgrade" - وهي عملية إيقاف أجزاء من النظام بشكل تدريجي من أجل التحديث، دون التأثير على الوظائف العامة.

تجنبها

بالنسبة لمعظم مواقع شبكة الانترنت، تتوفر ميزة مراقبة موقع الويب. مراقبة موقع الويب (الاصطناعية أو السلبية synthetic or passive) هي خدمة "تراقب" وقت التوقف عن العمل والمستخدمين على الموقع.

استخدامات اخرى

يمكن أن يشير وقت التوقف أيضًا إلى الوقت الذي ينخفض فيه العامل البشري أو الأصول الأخرى. على سبيل المثال، إذا كان الموظفون في اجتماعات أو غير قادرين على أداء عملهم بسبب قيد آخر، فإنهم في فترة انقطاع. قد يكون هذا مكلفًا بنفس القدر، وقد يكون نتيجة لتعطل أحد الأصول الأخرى (مثل الحاسوب/الأنظمة). ويُعرف هذا أيضًا باسم " الوقت الميت dead time".

قد يجري تعميم وقت التوقف أيضًا بمعنى شخصي، حيث يمكن استخدامه للإشارة إلى فترة النوم أو الترفيه للشخص، بمعنى أنه لا يُمارس أي عمل خلال تلك الفترة.[17][18][19]

ويستخدم هذا المصطلح أيضًا في المصانع أو الاستخدامات الصناعية. انظر الصيانة الإنتاجية الشاملة (TPM).

قياس وقت التوقف

هناك العديد من الخدمات الخارجية التي يمكن استخدامها لمراقبة وقت التشغيل ووقت التوقف بالإضافة إلى توفر الخدمة أو المضيف.

انظر أيضا

المراجع

  1. ^ "2021 Data Protection Trends Executive Brief". Veeam Software.
  2. ^ Neumann، Peter G.؛ Weinstock، Chuck؛ Townson، Patrick (11 مايو 1988). "Risks of Single Point Failures: The Hinsdale Fire". The RISKS Digest. ج. 6 ع. 82. مؤرشف من الأصل في 2022-10-06 – عبر The Catless Web Server. Excerpted from TELECOM Digest. 8 (76).
  3. ^ Neumann، Peter G. (26 فبراير 1990). "The Crash of the AT&T Network in 1990". Telephone World. The Risks Digest. مؤرشف من الأصل في 2022-12-19.
  4. ^ "Preventing IP Network Service Outages" (PDF). Agilent Technologies. 15 مارس 2002. مؤرشف من الأصل (PDF) في 2018-09-28.
  5. ^ Neumann، Peter G.؛ Bellovin، Steve؛ Byrnes، Jim؛ Newell، Ruthlyn (7 مايو 1998). "AT&T Announces Cause of Frame Relay Network Outage". The RISKS Digest. ج. 19 ع. 72. مؤرشف من الأصل في 2012-07-11 – عبر The Catless Web Server.
  6. ^ Block، Ryan (3 يناير 2008). "Xbox Live outage, day 13: still up and down, still preventing fun from being had". Engadget. مؤرشف من الأصل في 2012-01-27. اطلع عليه بتاريخ 2011-04-27.
  7. ^ Cohen، Peter (4 يناير 2008). "Microsoft offers free game for Xbox Live holiday problems". PC World. Macworld. مؤرشف من الأصل في 2011-12-01.
  8. ^ "Restoration of PlayStation®Network and Qriocity Services begins". Sony Group Portal - Sony Global Headquarters (بالإنجليزية). 15 May 2011. Retrieved 2021-10-22.
  9. ^ Levy, Ian (16 Mar 2016). "A Website Went Offline And Took Most Of Women's College Basketball Analytics With It". FiveThirtyEight (بالإنجليزية الأمريكية). Archived from the original on 2023-09-30.
  10. ^ Plant، Logan (29 أكتوبر 2021). "Roblox's Servers Are Back Online [Update]". IGN. مؤرشف من الأصل في 2023-10-17.
  11. ^ Finnis، Alex. "Is Roblox down? Why the gaming platform isn't working today with thousands of users reporting login problems". إم إس إن. مؤرشف من الأصل في 2021-11-15.
  12. ^ "Roblox was down all weekend, and not because of Chipotle". 30 أكتوبر 2021. مؤرشف من الأصل في 2021-10-30.
  13. ^ Milmo, Dan; Kollewe, Julia; Quinn, Ben; Taylor, Josh; Ibrahim, Mimi (20 Jul 2024). "Slow recovery from IT outage begins as experts warn of future risks". The Guardian (بالإنجليزية البريطانية). ISSN:0261-3077. Archived from the original on 2024-07-19. Retrieved 2024-07-21.
  14. ^ Weston, David (20 Jul 2024). "Helping our customers through the CrowdStrike outage". The Official Microsoft Blog (بالإنجليزية الأمريكية). Archived from the original on 2024-08-24. Retrieved 2024-07-21.
  15. ^ Cohen, Gad. "Downtime, Outages and Failures - Understanding Their True Costs". www.evolven.com (بالإنجليزية البريطانية). Retrieved 2021-10-22.
  16. ^ "Why Machine Downtime Tracking Matters?". Evocon (بالإنجليزية الأمريكية). 10 Sep 2018. Retrieved 2021-10-22.
  17. ^ "Rest & Relaxation: Why "Downtime" Is Important For Kids". 19 سبتمبر 2016.
  18. ^ "The Importance of Scheduling Downtime". 25 أغسطس 2008.
  19. ^ "What Lack of Sleep Does to Your Mind". Many people think of sleep simply as a luxury -- a little downtime.

روابط خارجية

  •  - ويكاموس