Im Bereich der software-ergonomischen Evaluation ist man mit den folgenden Begriffen konfrontiert: harte, weiche, formative, summative, quantitative, qualitative, subjektive, objektive, analytische, heuristische, empirische, formale, informelle, experimentelle, leitfadenorientierte, theory-based, user-based Evaluation. Versuchen wir eine gewisse Ordnung in die Begriffswelt der Evaluation zu bringen.
Die Art der Datengewinnung läßt sich auf einem Kontinuum zwischen
subjektiven und objektiven Verfahren abbilden.
Subjektive Evaluationsmethoden knüpfen unmittelbar an die Beurteilung durch den
Benutzer an. Bei subjektiven Evaluationsmethoden werden eher "weiche" Daten
gewonnen, ob die Benutzung des Systems bequem, angenehm,
klar, einsichtig ist etc..
Bei objektiven Methoden versucht man, subjektive Einflüsse weitgehend
auszuschalten.
Für die Systemevaluation bedeutet die Verwendung harter
Methoden die Erhebung quantitativer, statisch abgesicherter Daten, wie z.B. Ausführungs-
und Lernzeiten, Fehlerraten u. a. unter genau kontrollierten Bedinungen.
In gewissem Sinn liegen zwischen den subjektiven und objektiven Evaluationsmethoden
die analytische (leitfadenorientierte) Evaluation durch Experten und die empirische (usability assessed
by testing the interface with real users) Evaluation. Bei der leitfadenorientierten Evaluationsmethode
erfolgt die Bewertung durch einen Experten, der sich dabei jedoch - anders als der Benutzer - weniger
an (s)einer Aufgabe mit dem zu prüfenden System, als an software-ergonomischen
Fragestellungen orientiert. Subjektiv sind diese Verfahren insofern, als ein Subjekt aufgrund seiner
Einschätzung eine software-ergonomische Fragestellung selbst
prüft und beantwortet, objektiv sind diese Verfahren insofern,
als die software-ergonomischen Prüfkriterien soweit
operationalisiert und präzisiert sind, daß der Prüfer seine
Antwort aufgrund eindeutiger Testvorschriften und intersubjektiv
nachvollziehbarer Bedingungen gibt. Wenn dem Evaluator
Prüfkriterien und die anzuwendenden Methoden vorgegeben werden,
spricht man von einem methodengeleiteten Expertenurteil
(Piepenburg, Rödiger 89). Die Prüfkriterien und einzusetzenden
Methoden werden in einem Prüfleitfaden festgeschrieben, der den
Evaluator bei der Durchführung der Evaluation anleitet. Auf
diese Weise wird auch eine größtmögliche Nachvollziehbarkeit der
Prüfergebnisse gewährleistet.
Evaluation is closely meshed with design and development an can occur at
many different points in the design and development cycle. Formative evaluation takes
place before implementation in order to influence the product that will be produced.
Summative evaluation takes place after implementation with the aim of testing the proper
functioning of the final system.
Werden bei der Evaluation bestimmte Modelle, konkrete Formeln benutzt, so spricht man
von formalen bzw. experimentellen Methoden (Formaly (using exact models
and formulas to calculate usability measures)). Das Ziel beim Einsatz solcher Metoden ist das Testen von
Hypothesen. Basiert die Evaluation auf den Erfahrungen, Wissen von Evaluatoren, so ist von der informellen
Methoden die Rede (Informaly (based on rules of thumb and the general skill, knowledge, and experience of
the evaluators)).
Die Frage, welche Methode die "beste" ist, läßt sich wie folgt beantworten: Es gibt nicht die "beste" Evaluationsmethode, sondern daß deren Eignung vom Gegenstand und Einsatzzweck der Evaluation bestimmt wird. Jede Methode hat ihre spezifischen Vorteile und Evaluationsschwerpunkte. Es empfehlt sich daher, eine Kombination unterschiedlicher Evaluationsmethoden einzusetzen um zu Aussagen bzgl. der software-ergonomischen Qualität der Benutzerschnittstelle zu kommen.
Nachdem ein grober Überbick über die Arten der Evaluationsmethoden gegeben wurde, wollen wir etwas konkreter werden und einige Methoden zur Analyse und Evaluation interaktiver Computersysteme beschreiben.
In Abbildung 1 sind die Datenerhebungsverfahren in Abhängigkeit von der Objektivität der Datenerhebung und dem Grad der Benutzerbeteiligung dargestellt.

Bei Logfile-Erhebungen wird jede Benutzereingabe vom Rechner automatisch mitprotokolliert (Gaines 1981, Moll 1987). Es kann daher davon ausgegangen werden, daß die Daten vollständig und frei von störenden Einflüssen sind. Da die Daten meist aber nur Tastendrücke wiedergeben, ist es relativ schwierig auf Handlungsabläufe, Arbeitskontext, Systemzustand und Absichten des Benutzers rückzuschließen. Diese Verfahren sind eher geeignet, Performanz- und Effektivitätsvergleiche mit geschulten Benutzern durchzuführen.
Bei der analytischen oder heuristischen Evaluation durch Experten werden sämtliche Komponenten der Mensch-Rechner-Schnittstelle des zu untersuchenden Produkts systematisch durchforscht. Für die Aspekte der Aufgaben und der funktionalen Ebene ist ein Experte notwendig, der ausreichendes Wissen über die Arbeitsaufgabe und deren organisatorische und prozedurale Abwicklung besitzt. Für die operative und die Ein/Ausgabe-Ebene wird ein Experte gebraucht, der ausreichendes Wissen über software-ergonomische Dialog und Informationsgestaltung besitzt. Gemeinsam werden dann sämtliche Anwendungsfunktionen, Dialog und Informationskomponenten systematisch analysiert, beispielsweise nach den Gestaltungskriterien der VDI-Richtlinie 5005. Dieses Verfahren ist aufgrund des breiten Interpretationsspielraums existierender Gestaltungs- und Evaluationskriterien noch wenig standardisiert und eignet sich vor allem für die frühen Stadien der Software-Entwicklung. Nielsen (1992c) untersuchte die Effizienz von Evaluatoren und konnte zeigen, daß bereits Gruppen von zwei bis fünf Evaluatoren (je nach Anwendungs- und/oder software-ergonomischen Spezialkenntnissen) ausreichen, um 50-95 % der Schwachstellen einer Mensch-Rechner-Schnittstelle zu identifizieren.
Zu den heuristischen Verfahren zählen auch Ansätze, die in den USA unter der Bezeichnung "cognitive walkthroughs" bekannt wurden (Lewis et al. l990). Auf der Basis kognitiver Theorien zum explorativen Lernen werden Fragen zur Mensch-Rechner-Interaktion zusammengestellt. Ziel ist es, repräsentative Aufgaben an der zu untersuchenden Benutzeroberfläche durchzuspielen und jeden Interaktionsschritt mit den theorie-basierten Fragen zu beurteilen (Beispiel). Die Autoren weisen nach, daß bis zu 50 % der durch empirische Evaluation aufgedeckten Fehler im Design der Benutzungsoberfläche bereits mit weniger aufwendigen "cognitive walkthroughs" aufgedeckt werden können. Diese Verfahren wurden ursprünglich entworfen, um Anwendungen zu testen, die eine eng begrenzte Funktionalität besitzen und quasi von jedermann öffentlich genutzt werden sollen. Mittlerweile wird diese Technik jedoch verfeinert und als "group walkthroughs" von ganzen Teams zur Evaluation komplexer Anwendungen eingesetzt (Wharton et al., 1992). Oftmals können hier frühzeitig Fehlentwicklungen aufgefangen und wegweisende Lösungsansätze initiiert werden. Allerdings sind diese Verfahren kein Ersatz für die Beteiligung wirklicher Endbenutzer in den Evaluationsprozeß.
Unter dem Aspekt der Benutzerbeteiligung finden vor allem die systematische Verhaltensbeobachtung sowie Fragebogen und Interviewtechniken Verwendung. Diese Techniken werden meist im Rahmen empirischer Feld- oder Laboruntersuchungen eingesetzt. Die Befragungstechniken gehören darüberhinaus zu den am häufigsten eingesetzten Verfahren in den empirischen Sozialwissenschaften (Bortz 1984). Die Auswahl und die Konstruktion geeigneter Untersuchungsdesigns für Feld- oder Laborstudien hängt von sehr vielen Einzelfaktoren ab. Es können beispielsweise die Wechselwirkung zweier Komponenten (Zusammenhangshypothesen), Unterschiede zwischen Produkten oder Produktversionen (Unterschiedshypothesen) oder die Veränderung bestimmter Merkmale über die Zeit (Veränderungshypothesen) untersucht werden. Das Design hängt auch davon ab, ob ganze Benutzergruppen untersucht und verglichen oder ob systematische Einzelfalluntersuchungen (Einzelfallhypothesen) durchgeführt werden. Detaillierte Ausführungen zu diesen Themen finden sich in der einschlägigen Literatur (z.B. Stelzl 1982, Bortz 1984, Landauer 1988, Brigham 1989, Monk 1991).