Quellen: (Görner, Ilg 93), (Nielsen, Mack 94), (Open University 90), (Hampe-Neteler, Rödiger 92).

Klassifikation von Methoden

Für die Beurteilung der Benutzunsfreundlichkeit steht ein breites Spektrum an Datenerhebungs- und Meßverfahren zur Verfügung. Bisher existiert keine allgemeingültige Taxonomie von Evaluationsverfahren, die eine Einordnung aller gängigen Verfahren in ein Vergleichbarkeitsschema unterstützt. Schon einmal (Piepenburg, Rödiger 89) wurde versucht, das Gebiet software-ergonomischer Evaluation methodisch zu strukturieren. Dieser Versuch blieb entsprechend dem Stand der Kunst unvollständig.

Im Bereich der software-ergonomischen Evaluation ist man mit den folgenden Begriffen konfrontiert: harte, weiche, formative, summative, quantitative, qualitative, subjektive, objektive, analytische, heuristische, empirische, formale, informelle, experimentelle, leitfadenorientierte, theory-based, user-based Evaluation. Versuchen wir eine gewisse Ordnung in die Begriffswelt der Evaluation zu bringen.

Die Art der Datengewinnung läßt sich auf einem Kontinuum zwischen subjektiven und objektiven Verfahren abbilden. Subjektive Evaluationsmethoden knüpfen unmittelbar an die Beurteilung durch den Benutzer an. Bei subjektiven Evaluationsmethoden werden eher "weiche" Daten gewonnen, ob die Benutzung des Systems bequem, angenehm, klar, einsichtig ist etc.. Bei objektiven Methoden versucht man, subjektive Einflüsse weitgehend auszuschalten.
Für die Systemevaluation bedeutet die Verwendung harter Methoden die Erhebung quantitativer, statisch abgesicherter Daten, wie z.B. Ausführungs- und Lernzeiten, Fehlerraten u. a. unter genau kontrollierten Bedinungen.
In gewissem Sinn liegen zwischen den subjektiven und objektiven Evaluationsmethoden die analytische (leitfadenorientierte) Evaluation durch Experten und die empirische (usability assessed by testing the interface with real users) Evaluation. Bei der leitfadenorientierten Evaluationsmethode erfolgt die Bewertung durch einen Experten, der sich dabei jedoch - anders als der Benutzer - weniger an (s)einer Aufgabe mit dem zu prüfenden System, als an software-ergonomischen Fragestellungen orientiert. Subjektiv sind diese Verfahren insofern, als ein Subjekt aufgrund seiner Einschätzung eine software-ergonomische Fragestellung selbst prüft und beantwortet, objektiv sind diese Verfahren insofern, als die software-ergonomischen Prüfkriterien soweit operationalisiert und präzisiert sind, daß der Prüfer seine Antwort aufgrund eindeutiger Testvorschriften und intersubjektiv nachvollziehbarer Bedingungen gibt. Wenn dem Evaluator Prüfkriterien und die anzuwendenden Methoden vorgegeben werden, spricht man von einem methodengeleiteten Expertenurteil (Piepenburg, Rödiger 89). Die Prüfkriterien und einzusetzenden Methoden werden in einem Prüfleitfaden festgeschrieben, der den Evaluator bei der Durchführung der Evaluation anleitet. Auf diese Weise wird auch eine größtmögliche Nachvollziehbarkeit der Prüfergebnisse gewährleistet.
Evaluation is closely meshed with design and development an can occur at many different points in the design and development cycle. Formative evaluation takes place before implementation in order to influence the product that will be produced. Summative evaluation takes place after implementation with the aim of testing the proper functioning of the final system.
Werden bei der Evaluation bestimmte Modelle, konkrete Formeln benutzt, so spricht man von formalen bzw. experimentellen Methoden (Formaly (using exact models and formulas to calculate usability measures)). Das Ziel beim Einsatz solcher Metoden ist das Testen von Hypothesen. Basiert die Evaluation auf den Erfahrungen, Wissen von Evaluatoren, so ist von der informellen Methoden die Rede (Informaly (based on rules of thumb and the general skill, knowledge, and experience of the evaluators)).

Die Frage, welche Methode die "beste" ist, läßt sich wie folgt beantworten: Es gibt nicht die "beste" Evaluationsmethode, sondern daß deren Eignung vom Gegenstand und Einsatzzweck der Evaluation bestimmt wird. Jede Methode hat ihre spezifischen Vorteile und Evaluationsschwerpunkte. Es empfehlt sich daher, eine Kombination unterschiedlicher Evaluationsmethoden einzusetzen um zu Aussagen bzgl. der software-ergonomischen Qualität der Benutzerschnittstelle zu kommen.

Nachdem ein grober Überbick über die Arten der Evaluationsmethoden gegeben wurde, wollen wir etwas konkreter werden und einige Methoden zur Analyse und Evaluation interaktiver Computersysteme beschreiben.

In Abbildung 1 sind die Datenerhebungsverfahren in Abhängigkeit von der Objektivität der Datenerhebung und dem Grad der Benutzerbeteiligung dargestellt.

Abb. 1: Übersicht über Datenerhebungsverfahren für die Evaluation von Mensch-Rechner-Schnittstellen.

Generell wird zwischen objektiven und subjektiven Verfahren unterschieden. Sogenannte "Logfile-Erhebungen" sind im objektiven Bereich, Fragebogen und Interviews im subjektiven Bereich anzusiedeln. In der empirischen Evaluation werden Feld- oder Laboruntersuchungen mit Endbenutzern durchgeführt, die anfallenden Meßdaten werden durch systematische Verhaltensbeobachtungen oder andere Protokollierungstechniken gesammelt und ausgewertet.

Bei Logfile-Erhebungen wird jede Benutzereingabe vom Rechner automatisch mitprotokolliert (Gaines 1981, Moll 1987). Es kann daher davon ausgegangen werden, daß die Daten vollständig und frei von störenden Einflüssen sind. Da die Daten meist aber nur Tastendrücke wiedergeben, ist es relativ schwierig auf Handlungsabläufe, Arbeitskontext, Systemzustand und Absichten des Benutzers rückzuschließen. Diese Verfahren sind eher geeignet, Performanz- und Effektivitätsvergleiche mit geschulten Benutzern durchzuführen.

Bei der analytischen oder heuristischen Evaluation durch Experten werden sämtliche Komponenten der Mensch-Rechner-Schnittstelle des zu untersuchenden Produkts systematisch durchforscht. Für die Aspekte der Aufgaben und der funktionalen Ebene ist ein Experte notwendig, der ausreichendes Wissen über die Arbeitsaufgabe und deren organisatorische und prozedurale Abwicklung besitzt. Für die operative und die Ein/Ausgabe-Ebene wird ein Experte gebraucht, der ausreichendes Wissen über software-ergonomische Dialog und Informationsgestaltung besitzt. Gemeinsam werden dann sämtliche Anwendungsfunktionen, Dialog und Informationskomponenten systematisch analysiert, beispielsweise nach den Gestaltungskriterien der VDI-Richtlinie 5005. Dieses Verfahren ist aufgrund des breiten Interpretationsspielraums existierender Gestaltungs- und Evaluationskriterien noch wenig standardisiert und eignet sich vor allem für die frühen Stadien der Software-Entwicklung. Nielsen (1992c) untersuchte die Effizienz von Evaluatoren und konnte zeigen, daß bereits Gruppen von zwei bis fünf Evaluatoren (je nach Anwendungs- und/oder software-ergonomischen Spezialkenntnissen) ausreichen, um 50-95 % der Schwachstellen einer Mensch-Rechner-Schnittstelle zu identifizieren.

Zu den heuristischen Verfahren zählen auch Ansätze, die in den USA unter der Bezeichnung "cognitive walkthroughs" bekannt wurden (Lewis et al. l990). Auf der Basis kognitiver Theorien zum explorativen Lernen werden Fragen zur Mensch-Rechner-Interaktion zusammengestellt. Ziel ist es, repräsentative Aufgaben an der zu untersuchenden Benutzeroberfläche durchzuspielen und jeden Interaktionsschritt mit den theorie-basierten Fragen zu beurteilen (Beispiel). Die Autoren weisen nach, daß bis zu 50 % der durch empirische Evaluation aufgedeckten Fehler im Design der Benutzungsoberfläche bereits mit weniger aufwendigen "cognitive walkthroughs" aufgedeckt werden können. Diese Verfahren wurden ursprünglich entworfen, um Anwendungen zu testen, die eine eng begrenzte Funktionalität besitzen und quasi von jedermann öffentlich genutzt werden sollen. Mittlerweile wird diese Technik jedoch verfeinert und als "group walkthroughs" von ganzen Teams zur Evaluation komplexer Anwendungen eingesetzt (Wharton et al., 1992). Oftmals können hier frühzeitig Fehlentwicklungen aufgefangen und wegweisende Lösungsansätze initiiert werden. Allerdings sind diese Verfahren kein Ersatz für die Beteiligung wirklicher Endbenutzer in den Evaluationsprozeß.

Unter dem Aspekt der Benutzerbeteiligung finden vor allem die systematische Verhaltensbeobachtung sowie Fragebogen und Interviewtechniken Verwendung. Diese Techniken werden meist im Rahmen empirischer Feld- oder Laboruntersuchungen eingesetzt. Die Befragungstechniken gehören darüberhinaus zu den am häufigsten eingesetzten Verfahren in den empirischen Sozialwissenschaften (Bortz 1984). Die Auswahl und die Konstruktion geeigneter Untersuchungsdesigns für Feld- oder Laborstudien hängt von sehr vielen Einzelfaktoren ab. Es können beispielsweise die Wechselwirkung zweier Komponenten (Zusammenhangshypothesen), Unterschiede zwischen Produkten oder Produktversionen (Unterschiedshypothesen) oder die Veränderung bestimmter Merkmale über die Zeit (Veränderungshypothesen) untersucht werden. Das Design hängt auch davon ab, ob ganze Benutzergruppen untersucht und verglichen oder ob systematische Einzelfalluntersuchungen (Einzelfallhypothesen) durchgeführt werden. Detaillierte Ausführungen zu diesen Themen finden sich in der einschlägigen Literatur (z.B. Stelzl 1982, Bortz 1984, Landauer 1988, Brigham 1989, Monk 1991).