Auch wenn sich Scoring einer Vielzahl an Verfahren und Werkzeugen aus dem Bereich BI bedient, liegen Scoring- und BI-Lösungen oftmals isoliert voneinander vor. Die Ursache hierfür liegt meist in einer unterschiedlichen Historie und verschiedenen Verantwortungsbereichen. Anstatt Nutzen aus den Möglichkeiten von BI bei der Überwachung, Optimierung und Automatisierung von Unternehmensprozessen zu ziehen, existieren Insellösungen für Scoring. Diese beinhalten natürlich trotzdem viele Komponenten zur Analyse, sind aber oft weniger gut geeignet, da sie auf einen eigenen Datenhaushalt aufsetzen, der nicht zwingend konsistent zum BI-Datenhaushalt ist.
Getreu dem Motto, dass gemessen werden muss, was beherrscht werden will, besteht eine wesentliche Aufgabe von BI-Lösungen darin, die Effizienz und den Erfolg von Geschäftsprozessen zu ermitteln und in leicht verständlicher Weise sichtbar zu machen. Relevante Kennzahlen werden innerhalb von einzelnen Reports, ganzen Analyse-Dashboards oder mit unterstützenden Funktionen wie automatischen Alerts, die Abweichungen vom Soll oder vom bisherigen Trend erkennen, abgebildet. Auf dieser Basis können fachliche Entscheider auf allen Ebenen Handlungsbedarfe erkennen und die richtigen Maßnahmen einleiten. Eine solche Maßnahme kann die Anpassung von Scoringmodellen sein, wenn deren Vorhersagekraft erkennbar nachlässt.
Findet die Validierung von Scoringmodellen außerhalb der normalen BI-Infrastruktur statt, führt dies dazu, dass Aufwände für die Datenintegration mehrfach – für die BI- und für die Scoringlösung – geleistet werden müssen. Neben den hiermit verbundenen Kosten droht ein inhaltliches Auseinanderlaufen von jeweils implementierten Logiken, zum Beispiel zur Ableitung von Kennzahlen oder zur Beseitigung von Datenqualitätsproblemen. Oftmals bedienen sich Scoring- und BI-Datenhaushalt für dieselben Datenobjekte auch unterschiedlicher Quellen, was zu weiteren Verzerrungen führen kann. Zur Vermeidung solcher Qualitäts- und Konsistenzprobleme empfiehlt sich der Einsatz eines gemeinsamen Risk Data Warehouse oder Risk Data Mart, auf den sowohl bei der Berechnung von Scores als auch beim Erfolgsmonitoring zugegriffen wird.
Essentiell für eine solche Datenbasis ist natürlich auch die historisch nachvollziehbare Speicherung der Scoringresultate selbst, die auf diese Weise nicht nur für die Beurteilung und Optimierung der Scoringmodelle genutzt werden können, sondern auch anderen Prozessen, etwa im Meldewesen, als Datengrundlage dienen. Unternehmensübergreifende Risikobetrachtungen, wie sie der Gesetzgeber fordert, sind auf solche Informationen angewiesen.
Schon einfaches Reporting kann erste Hinweise liefern, in welcher Richtung Anpassungen erforderlich sind. Gute BI-Werkzeuge bieten hierzu die Möglichkeit vertiefender Ad-hoc-Analysen, beispielsweise mit OLAP-Mitteln (Online Analytical Processing). Interaktiv kann sich der fachliche Experte auf die Suche nach interessanten Zusammenhängen innerhalb größerer Datenmengen machen und über mehrere Iterationen hinweg Hypothesen prüfen. Hilfreich ist auch die Möglichkeit, bei Bedarf mit wenig Aufwand zusätzliche Datenquellen zu integrieren, die bereits an das Data Warehouse oder den Data Mart angebunden sind.
Auf diese Weise manuell gefundene Korrelationen und Muster müssen statistisch untermauert, das heißt auf ihre Signifikanz überprüft werden, bevor sie in entsprechende Scoringmodelle als Regeln einfließen. Nicht alle BI-Werkzeuge bieten statistische Funktionen und Signifikanztests in einer gemeinsamen Umgebung mit OLAP- und Ad-hoc-Werkzeugen. Sofern verschiedene Werkzeuge zum Einsatz kommen, sollten diese in jedem Fall denselben integrierten Datenbestand und die gleichen Filter- und Aggregationslogiken nutzen. Besser ist es jedoch, bereits bei der Auswahl der BI-Technologie darauf zu achten, dass die Analysekomponenten entsprechend mächtig sind.
OLAP-Analysen liefern nur dann gute Ergebnisse, wenn der Anwender zumindest ungefähr weiß, wo er nach interessanten Informationen suchen muss, das heißt wenn er bereits über Hypothesen für Zusammenhänge verfügt. Aufgrund der begrenzten Kapazität und Mustererkennungsfähigkeit der menschlichen Wahrnehmung lassen sich die heute üblichen Datenmengen so nicht umfassend auswerten. Viele, vor allem komplexere Muster bleiben so typischerweise verborgen. Hier verspricht Data Mining Abhilfe, ein Ansatz, der die Untersuchung deutlich offenerer Fragestellungen ermöglicht. Zum Beispiel: „Woran erkenne ich frühzeitig Betrüger unter unseren Kunden?“ oder „Welche Vertragseigenschaften kündigen in Kombination einen Zahlungsausfall an?“.
Data Mining arbeitet weitgehend hypothesenfrei, sprich: der Suchraum ist viel weiter. Da die Mustererkennung durch Computerprogramme stattfindet, entfallen auch die Beschränkungen durch den Faktor Mensch weitgehend. Data-Mining-Modelle und gefundene Muster müssen allerdings fachlich auf ihre Relevanz hin bewertet werden. Aufgrund seiner zur hypothesengetriebenen Analyse komplementären Charakteristik eignet sich Data Mining besonders gut als vorgeschaltetes Verfahren: Man spürt damit zunächst explorativ Zusammenhänge auf, kann daraufhin Hypothesen bilden und diese dann zum Beispiel mittels OLAP gezielt näher untersuchen.
Besonders empfehlenswert ist eine Variante des Data Mining, das sogenannte „Self-Acting Data Mining“ (www.mayato.com/downloads/ mayato_Whitepaper_S-ADM_11.07.pdf), das die Schnelligkeit und einfache Erstellung von OLAP-Analysen mit dem großen Suchraum des traditionellen Data Mining kombiniert. Bei nur minimalen Einbußen hinsichtlich der Ergebnisqualität, aber deutlich niedrigerem Aufwand an Zeit und statistischem Know-how kann „Self-Acting Data Mining“ helfen, schnell relevante Muster zu erkennen, daraus Regeln für das Scoring abzuleiten und diese sehr zeitnah zu implementieren. „Self-Acting Data Mining“ eignet sich auch sehr gut zum „Ausprobieren“, da die Kosten für Pilotstudien sich je nach Fragestellung und Komplexität nur im Bereich weniger zehntausend Euro bewegen. Solche Pilotstudien sind zu empfehlen, wenn man sich nicht sicher ist, ob die eigenen Daten überhaupt signifikante Muster beinhalten, oder wenn man nachgewiesen wissen möchte, dass Data Mining bessere Resultate erzielt als das herkömmliche Vorgehen beim Scoring.
Theoretisch lassen sich Data-Mining-Modelle auch direkt für das Risikoscoring einsetzen, das heißt, sie könnten unmittelbar in die Antrags- und Kreditentscheidungsprozesse integriert werden. Da viele Banken jedoch – nicht zuletzt auf Druck von Medien und Verbraucherschützern – Wert auf Transparenz der Entscheidungskriterien legen, spielt die Erklärbarkeit im Fall der Ablehnung eines Kreditantrages eine nicht unwesentliche Rolle. Es gibt auch durchaus Werkzeuge und Verfahren des Data Mining, deren Ergebnisse einfach verständlich und interpretierbar sind. Aus diesem Grund sind zum Beispiel Entscheidungsbäume unter den Data-Mining-Methoden weit verbreitet. In der Praxis überwiegt allerdings immer noch der Ansatz, identifizierte Muster in Form von zumeist etwas vereinfachten Regeln und Regelgruppen innerhalb einer Scoringengine manuell festzulegen, auch wenn unter Umständen das Raster von Kreditentscheidungen grober wird und letztlich die Zahl von Fehlentscheidungen gegenüber einem gut trainierten Data-Mining-Modell ansteigt.
Im Kontext des World Wide Web und des Mobile Business sind jedoch immer öfter Entscheidungen innerhalb von Sekunden gefragt. Außerdem ändern sich Märkte und das Verhalten der verschiedenen Akteure immer schneller. Gleichzeitig werden Produkte und damit auch risikorelevante Muster komplexer. Zu guter Letzt tragen auch Effizienz- und Kostendruck dazu bei, dass Prozesse stärker automatisiert werden. Alle diese Faktoren erzeugen Bedarf für eine prozessintegrierte Analytik, die nicht nur Scoringregeln abarbeitet, sondern diese selbstständig regelmäßig validiert und durch maschinelles Lernen kontinuierlich verbessert.
Autor: Dr. Marcus Dill, Geschäftsführer bei mayato. Er ist Experte für CRM-Analytics.