Die kontrollflussorientierten Testverfahren, auch Überdeckungstests genannt, gehören zu der Gruppe der strukturorientierten Testmethoden.
Die kontrollflussorientierten Testverfahren orientieren sich am Kontrollflussgraphen des Programms. Es handelt sich bei diesen Tests um White-Box-Testverfahren, das heißt, die Struktur des Programms muss bekannt sein.
Die einzelnen Testverfahren werden mit Cx bezeichnet, wobei das „C“ für „Coverage“ steht, was so viel heißt wie die Abdeckung oder die Gesamtheit der ausgewerteten Informationen.
Es gibt mehrere zueinander sehr ähnlich aussehende, aber in der Bedeutung unterschiedliche Bezeichnungsarten:
Beginnt die Bezeichnung mit kleinen c → siehe Harry M. Sneed, Mario Winter: Testen objektorientierter Software. Hanser Verlag, ISBN 3-446-21820-3.
Beginnt die Bezeichnung mit einem großen C und steht die nun folgende Ziffer auf der Grundlinie wie das C, z. B. C4 → Ernest Wallmüller, „Software - Qualitätssicherung in der Praxis“, Hanser Verlag.
Beginnt die Bezeichnung mit einem großen C und ist die folgende Ziffer ein Subskript, zum Beispiel C1, liegt also unterhalb der Grundlinie → siehe Standard DO-178B.
Die IEC 61508 Teil 7 und die davon abgeleiteten Anhänge der EN 50128 verwenden keine Abkürzungen für diese Metriken.
Die unterschiedlichen Testarten
Zeilenüberdeckungstests
Noch vor der Hierarchie der Cx Testverfahren steht die von vielen Werkzeugen in der Softwareentwicklung bereitgestellte Zeilenüberdeckungskennzahl. Sie ist etwas unschärfer als C0, orientiert sich auch nicht direkt am Kontrollflussgraph, kann aber oft direkt aus den Informationen gewonnen werden, die Debugger ohnehin liefern.
Bei der Zeilenüberdeckung werden nicht die Anweisungen betrachtet, sondern nur die ausführbaren Quellcodezeilen. Beliebig viele Testfälle für
if(false){print"abgedeckt?";}
würden zu einer Zeilenüberdeckung von 100 % führen, während es für das syntaktisch und semantisch identische, aber anders formatierte Programm
if(false){print"abgedeckt?";}
nur zu einer Zeilenüberdeckung von 50 % führt.
In der Regel sind die Unterschiede in der praktischen Anwendung allerdings nicht relevant, da durch andere Maßnahmen in der Softwareentwicklung wie Kodierungsrichtlinien (engl.: "style guides") eine weitgehende Homogenisierung der Quellcodeformatierung vorliegt.
Vorteile
siehe C0
einfachere technische Implementierung über die von Debuggern gelieferten Zeilennummern
Nachteile
keine Standardmetrik wie C0
liefert bei syntaktisch identischen Programmen je nach Formatierung unterschiedliche Werte
Anweisungsüberdeckungstests, auch C0-Test genannt, testen jede Anweisung mindestens ein Mal. Wurde jede Anweisung in einem Programm mindestens einmal ausgeführt, spricht man von vollständiger Anweisungsüberdeckung. Wurde vollständige Anweisungsüberdeckung erreicht, dann steht fest, dass kein toter Code (Anweisungen, die niemals durchlaufen werden) im Programm existiert.
Anweisungsüberdeckungstests werden selten als Haupttestwerkzeug in einem Vollständigkeitstest eingesetzt, denn dafür sind sie in der Regel zu schwach.
Metrik (Messung)
Der Anweisungsüberdeckungsgrad bestimmt sich wie folgt:
Vorteil
Die Anweisungsüberdeckung bietet folgende Vorteile:
Anweisungsüberdeckung ist im Vergleich zu anderen Überdeckungsmaßen schnell zu erreichen
Nachteil
Die Anweisungsüberdeckung sollte jedoch nicht als alleiniges Testkriterium verwendet werden, denn:
Anweisungsüberdeckung wertet jede Anweisung im Quellcode gleichgewichtig
bei Steuerstrukturen (Schleifen, Bedingungen, …) werden die Datenabhängigkeiten nicht beachtet und
leere Zweige werden nicht entdeckt
Beispiel mit Quellcode
Gegeben sei folgender Quellcode:
/* z wird das Doppelte des größeren Werts von x oder y zugewiesen */intz=x;if(y>x)z=y;z*=2;
In diesem Fall genügt ein einziger Testfall, um eine vollständige Anweisungsüberdeckung zu erreichen, zum Beispiel x = 0, y = 2. Falls y nicht größer als x ist, wird z = y nicht ausgeführt und die vollständige Anweisungsüberdeckung wird nicht erreicht. Um alle Verzweigungen (if und else) einmal zu testen, sollte die Zweigüberdeckung als Testkriterium verwendet werden.
Beispiel mit Kontrollflussgraphen
Gegeben sei folgender Kontrollflussgraph:
Für diesen Kontrollflussgraphen kann die Anweisungsüberdeckung mit einem Testfall erreicht werden: {(Start, 1, 2, 3, 4, 5, Stopp)}.
C1. Zweigüberdeckungstest (Branch Coverage)
Allgemein
Der Zweigüberdeckungstest (C1–Test; auch Kantenüberdeckung, Entscheidungsüberdeckungstest, Branch- oder Edge Coverage genannt) umfasst den Anweisungsüberdeckungstest vollständig.
Für den C1–Test müssen strengere Kriterien erfüllt werden als beim Anweisungsüberdeckungstest.
Im Bereich des kontrollflussorientierten Testens wird der Zweigüberdeckungstest als Minimalkriterium angewendet.
Mit Hilfe des Zweigüberdeckungstests lassen sich nicht ausführbare Programmzweige aufspüren.
Anhand dessen kann man dann Softwareteile, die oft durchlaufen werden, gezielt optimieren.
Analog zum Anweisungsüberdeckungstest wird, um die Codeabdeckung messbar zu machen, der Code in unten stehender Abbildung durch eine boolesche Hilfsvariable test instrumentiert.
Im Gegensatz zum Anweisungsüberdeckungstest durchläuft der Zweigüberdeckungstest alle Zweige. Der Zweigüberdeckungstest wird auch
Entscheidungsüberdeckungstest genannt, da die Hilfsvariable mindestens einmal mit dem Wert true und false durchlaufen werden muss.
In diesem Fall muss die While-Schleife mindestens zweimal durchlaufen werden. Mit dem Durchlaufen der Zweige wird auch sichergestellt, dass
jeder Knoten (Anweisung) mindestens einmal ausgeführt wird.
Somit wird auch das Kriterium für den Anweisungsüberdeckungstest erfüllt.
Daher subsumiert der Zweigüberdeckungstest den Anweisungsüberdeckungstest.
Schwierig ist es für den Zweigüberdeckungstest Testfälle zu generieren, wo Betriebssystemzustände oder Dateikonstellationen getestet werden müssen. Weiterhin ist diese Technik des Testens zum Testen von ’Schleifen’ und zusammengesetzter Entscheidungen nicht geeignet, da weder Kombinationen von Zweigen, noch kompliziert aufgebaute Entscheidungen in Betracht gezogen werden können. Hierfür müssen Erweiterungen herangezogen werden.
Weitaus problematischer erweist sich das Zweigüberdeckungsmaß. In dem Fall, dass alle Knoten gleich bewertet sind, verzichtet man auf die Betrachtung der Abhängigkeiten untereinander. Dadurch entsteht kein linearer Zusammenhang zwischen der erreichten Überdeckungsrate und dem Verhältnis zwischen der Anzahl der dazu benötigten Testfälle und der eigentlichen Anzahl der Testfälle, die für die 100-prozentige Zweigüberdeckung notwendig sind. Um den Zweigüberdeckungstest zu verbessern, wird ein Zweig, der abhängig von einem anderen Zweig ist,
nicht weiter berücksichtigt. Die Zweige, die nicht abhängig sind, werden als primitiv bezeichnet.
Metrik
Daher ergibt sich für das Überdeckungsmaß:
.
Vorteile
Deckt nicht erreichbare Zweige auf
Fehlerentdeckungsrate bei ca. 33 %. Ein Fünftel davon sind Berechnungsfehler, der Rest sind Steuerflussfehler.
Nachteile
Abhängigkeiten zwischen Bedingungen werden nicht berücksichtigt
komplexe Verzweigungsbedingungen werden nur schwach getestet
Beispiele
Gegeben sei folgender Quellcode:
/* z wird das Doppelte des größeren Werts von x oder y zugewiesen */intz=x;if(y>x)z=y;z*=2;
Im Gegensatz zum Anweisungsüberdeckungstest ist nun mehr als ein Testfall notwendig, um eine 100%ige Zweigüberdeckung zu erreichen,
da sowohl der Fall für den durchlaufenen If-Zweig, als auch der Fall für den nicht-durchlaufenen If-Zweig überprüft werden muss:
Testfall 1: x = 0, y = 2
Testfall 2: x = 2, y = 0
Wie auch im Anweisungsüberdeckungstest sind verschiedene Testfälle möglich, die das geforderte Kriterium erfüllen.
Nach Ausführung stellt sich heraus, dass das Ergebnis bei beiden Testfällen der Spezifikation entspricht und der Test somit bestanden ist.
Ein weiteres Beispiel:
Gegeben sei folgender Kontrollflussgraph:
Eine Zweigüberdeckung ist {(Start, 1, 2, 3, 4, 5 Stopp), (Start, 1, 3, 5, Stopp)}.
C2. Pfadüberdeckungstest (Path Coverage)
Beim Pfadüberdeckungstest (auch C2-Test bzw. englisch path coverage) werden im Kontrollflussgraphen die möglichen Pfade vom Startknoten bis zum Endknoten betrachtet.
Übersicht
C2a – vollständiger Pfadüberdeckungstest
C2b – Boundary-Interior Pfadüberdeckungstest
C2c – Strukturierter Pfadüberdeckungstest
C2a – vollständiger Pfadüberdeckungstest
Es werden alle möglichen Pfade getestet. Problem: Bei Programmen mit Schleifen kann es extrem viele Pfade geben.
C2b – Boundary-Interior-Pfadüberdeckungstest
Im Prinzip wie der C2a-Test, nur dass nun die Schleifendurchläufe auf höchstens zwei reduziert werden.
Für jede Schleife gibt es zwei Gruppen von Pfaden:
Boundary-Test
Jede Schleife wird
keinmal und
genau einmal betreten und alle Pfade in dem Schleifenkörper werden einmal abgearbeitet.
Interior-Test
Das Schleifeninnere gilt als getestet, wenn alle Pfade, die bei zweimaligem Durchlaufen möglich sind, abgearbeitet wurden.
C2c – Strukturierter Pfadüberdeckungstest
Im Prinzip wie der C2b-Test, nur dass nun die Anzahl der Schleifendurchläufe auf eine vorgegebene natürliche Zahl n reduziert wird.
Vorteil
Hohe Fehlererkennungsrate
Nachteil
nicht ansprechbare Pfade auf Grund von Bedingungen
Das Problem der bisherigen Überdeckungstests (C1-Test, C2-Test) ist, dass zusammengesetzte, hierarchische Bedingungen nicht ausreichend getestet werden.
Jede atomare Bedingung einer Entscheidung muss einmal mit true und einmal mit false getestet werden. Beispiel:
booleana,b;if(a||b){...}
Eine minimale Testfallmenge, die die Einfachbedingungsüberdeckung erfüllt, ist {(a=false, b=false), (a=true, b=true)}.
C3b – Mehrfachbedingungsüberdeckungstest
Dieser Test betrachtet alle atomaren Bedingungen einer Bedingung. Wenn n atomare Bedingungen in der Bedingung stehen, dann werden Kombinationen gebildet.
Das heißt für das obige Beispiel, dass 4 Testfälle gebildet werden.
Diese Version erstellt mehr Testfälle als C3a und weniger als C3b, indem jede Bedingung (atomar und zusammengestellt) zu true und zu false evaluiert wird. Die logische Struktur wird hierbei berücksichtigt und der C1-Test (Zweigüberdeckungstest) ist vollständig in diesem Test enthalten. Ein weiterer Punkt ist, dass der C3c-Test berechenbar ist. Im obigen Beispiel wird somit der Testfall {(a=false, b=true)} oder {(a=false, b=false)} gewählt, da andernfalls die logische Struktur bereits bei der ersten Teilbedingung abbricht.
Vorteil
Hohe Fehlererkennungsrate
Nachteil
nicht ansprechbare Pfade auf Grund von Bedingungen
Bewertung
Unvollständige Auswertung einer Bedingung durch eine Programmiersprache mit sog. short circuit evaluation wie zum Beispiel C++, C, Java, C#.
Beispiel:
if(a&&b){...}else{// Lies b aus}
Wenn a false ist, dann ist die Belegung der Variable b egal.
Zum Beispiel a=false und b=null, dann passiert ein Fehler im else-Zweig.
Zusammenfassung
Kurzname
erfüllte Bedingung
Durchführbarkeit
Anweisungsüberdeckungstest
C0
jede Anweisung wird mindestens einmal ausgeführt
relativ einfach
Zweigüberdeckungstest
C1
jede Kante im Kontrollflussgraph (KFG) wird mindestens einmal durchlaufen
wie C2a, Schleifen werden jedoch nach speziellen Regeln durchlaufen
aufwendig
Strukturiert
C2c
wie C2b, Schleifen werden jedoch genau n-mal durchlaufen
aufwendig
Bedingungsüberdeckungstest
C3
Einfachbedingung
C3a
jede atomare Bedingung wird einmal mit true und false getestet
Mehrfachbedingung
C3b
jede true/false Kombination der atomaren Bedingungen wird getestet
sehr hoher Aufwand
Minimale Mehrfachbedingung
C3c
jede atomare Bedingung und die Gesamtbedingung wird mit true und false getestet
hoher Aufwand
Bewertung
Die Qualität eines Tests hängt entscheidend vom gewählten Test ab: Wurde nur nach C0 mit Überdeckungsgrad 100 % getestet, so ist dies trotzdem kein verlässlicher Indikator für eine fehlerfreie Software. Wurde hingegen mit C2 auf 100 % getestet, würde dies ein gutes Kriterium für eine fehlerfreie bzw. -arme Software darstellen. In der Praxis wird dieser Test wegen der kombinatorischen Explosion nur für sicherheitskritische Software (zum Beispiel Luftfahrt) durchgeführt.
Die zweite wichtige Größe ist der Überdeckungsgrad. Dieser ist aber nur bei Verwendung des gleichen Tests untereinander vergleichbar. Bei einem hohen Überdeckungsgrad werden mehr Fehler gefunden als bei einem niedrigen.