Künstliche Intelligenz findet in immer mehr Anwendungsbereichen Verwendung. Doch wie können wir sicherstellen, dass KI-basierte Systeme korrekt funktionieren und die gewünschten Ergebnisse liefern?

Hier kommt das Testen von KI ins Spiel und genau aus diesem Grund werfen wir jetzt gemeinsam einen Blick auf die verschiedenen Teststufen. Wir starten dabei mit Unit- und Integrationstests: Der Unit-Test, auch Komponenten Test genannt, kann für alle Nicht-Modell-Komponenten angewendet werden und ist bereits aus konventionellen Systemen bekannt. Integrationstests sind der nächste Schritt beim Testen von KI-basierten Systemen. Sie testen die Interaktion zwischen verschiedenen Komponenten des Systems, um sicherzustellen, dass sie korrekt zusammenarbeiten und die erwarteten Ergebnisse liefern. Hier wird auch das Zusammenspiel zwischen KI- und nicht KI-Komponenten verifiziert.

Werfen wir nun einen Blick auf System- und Abnahme-Tests: Systemtests stellen sicher, dass das Gesamtsystem aus allen integrierten Komponenten (sowohl KI als auch nicht KI) wie erwartet funktioniert. Hier ist die Besonderheit bei KI-basierten Systemen, dass die funktionalen Leistungskriterien von Machine Learning erneut verifiziert werden müssen. Dadurch wird sichergestellt, dass die Testergebnisse des ersten ML-Modelltests nicht beeinträchtigt werden, wenn das Modell in ein vollständiges System integriert wird. Der Abnahmetest stellt sicher, dass das Gesamtsystem vom Kunden akzeptiert werden kann. Bei KI-basierten System ist die Herausforderung eine klare Definition der Abnahmekriterien.

Das Testen von KI-basierten Systemen erfordert spezielle Techniken und Methoden, um sicherzustellen, dass die Systeme korrekt funktionieren und die gewünschten Ergebnisse liefern. KI-spezifsch kommen somit zu den bereits vorgestellten Teststufen noch Eingabedatentests und ML-Modelltests hinzu.

Beim Eingabedatentest wird sichergestellt, dass die vom System genutzten Daten von höchster Qualität sind. Dazu gehören unter anderem: Reviews, Statische Techniken, Explorative Datenanalyse der Trainingsdaten oder statische und dynamische Tests der Datenpipeline. Im Gegensatz dazu validiert der ML-Modelltest ausgewählte Modelle auf die Erfüllung aller festgelegten Leistungskriterien. Dies schließt funktionale und Nicht-funktionalen Abnahmekriterien von ML ein. Wenn das Modell diese Kriterien nicht erfüllt, können verschiedene Anpassungen vorgenommen werden, um seine Leistung zu verbessern. Dazu gehören beispielsweise die Optimierung der Hyperparameter oder die Verwendung eines anderen Algorithmus.

Quelle: Die unterschiedlichen Arten von Softwaretests | Atlassian