Text Mining

Ansatz zur Betrugserkennung in Buchungsbelegen


Alexander Bast
Text Mining: Ansatz zur Betrugserkennung in BuchungsbelegenComment

Ein bekanntes Sprichwort sagt: "Zahlen lügen nicht". Und doch zeigen sie nie die ganze Wahrheit. Lassen Sie uns gemeinsam zwischen den Zahlen lesen und durch Textanalysen einen möglichen Betrug aufdecken.

Es gibt zahlreiche Modelle und Möglichkeiten, um betrügerische Handlungen in getätigten Buchungen eines Unternehmens festzustellen. Die meisten dieser Methoden befassen sich mit einer Analyse der angegebenen Kalkulationen und Zahlenwerten.

Liegen einige dieser Werte stark außerhalb eines Zahlenbereichs, so wird jeder Prüfer schnell aufmerksam. Folgen alle Zahlenwerte korrekt der Unternehmenslogik, so kommt nur schwer der Verdacht eines Betrugs auf.

Eine Täuschung kann sich jedoch auch auf anderen Ebenen bemerkbar machen. Betrachtet man beispielsweise die Buchungstexte aller getätigter Buchungen, kann ein bisher unerkanntes Muster oder eine ungewöhnliche Verwendung bestimmter Buchungstexte einen Betrug geschickt verschleiern. Im Alltag begegnet man allerdings häufig so großen Datenmengen, so dass es fast unmöglich ist, diese Aufgabe mit simplen Methoden zu lösen. Die Wahl einer auf Text Mining basierenden Methode der Betrugserkennung kann hier Abhilfe schaffen.

Was ist Text Mining?

Als Text Mining bezeichnet man formal einen Prozess, mit dem man aus unstrukturiertem Text numerisch relevante Kennzahlen extrahiert und damit eine Struktur bereitstellt, die sich zu einer weiteren Analyse eignet. Ein Text-Mining-System liefert dem Benutzer statistisch relevante Informationen über den Inhalt des Dokuments, die bisher verborgen geblieben sind und ermöglicht damit ein breites Spektrum an Einsatzmöglichkeiten.

Eine praktische Anwendung findet man beispielsweise in der SAP® Tabelle BKPF, die den Belegkopf für die Buchhaltung enthält. Hier wird unter dem Feld BKTXT ein Belegkopftext vermerkt und ist in diesem Fallbeispiel unsere Grundlage für eine Auswertung mit Text-Mining-Systemen. Es gibt viele Programmiersprachen, die für Text Mining in Frage kommen, doch haben Python und R die Nase vorn, es bleibt dem Anwender aber frei sich für eine Programmiersprache zu entscheiden.

Abb. 01: Export der Tabelle BKPF im SAP®-SystemAbb. 01: Export der Tabelle BKPF im SAP®-System

Nach einem Export der Tabelle BKPF liegt uns diese als Excel- oder Textdatei vor. Eine gründliche Bereinigung der Daten ermöglicht uns schließlich die isolierte Betrachtung aller Buchungstexte. Nun steht es uns frei Buchungstexte zu aggregieren, zusammenzufassen, die absoluten und relativen Häufigkeiten zu bestimmen und Korrelationen und andere statistisch relevanten Kennzahlen zu ermitteln. Im direkten Vergleich zur Verwendung von Microsoft® Excel triumphiert das Text-Mining-System durch die beinahe vollautomatisierte Bearbeitung dieser Daten und liefert dem Anwender schnell aussagekräftige Informationen. Die Funktionalität die vorliegenden Textfragmente auf Hypothesen zu testen, ermöglicht dem Anwender ein noch breiteres Anwendungsspektrum. Sie haben also einen Verdacht? Dann lassen Sie ihn einfach überprüfen.

Indizien zur Betrugserkennung

Häuft sich eine Buchung ungewöhnlich, oder folgt eine Buchung in einer bisher unbekannten Regelmäßigkeit einer anderen Buchung, so wären dies zwei Indizien dafür, dass man einen genaueren Blick auf diese Datensätze werfen sollte.

Möglicherweise wurden Buchungen vorgenommen, die bewusst mit einem falschen Buchungstext versehen wurden. Oder man findet ungewöhnliche Frequenzen in der Abfolge und kann feststellen, dass – wie so häufig – ein bestimmtes Muster benutzt wurde, um einen Betrug zu vertuschen.

Ausreißer stellen den Abschluss dieser kleinen Einführung und sind damit nicht von minderem Interesse. Beim systematischen Betrug kann diese Auswertung Buchungen finden, die in einer sehr niedrigen aber doch regelmäßigen Frequenz getätigt wurden und sich so im Verborgenen, über Jahre hinweg ein erheblicher Geldbetrag erschlichen werden konnte.

Wo heute noch Prüfer viel Arbeit in die Auswertung von textbasierten Dokumenten stecken, gab es in den letzten Jahren einen erheblichen und bisher noch wenig genutzten Fortschritt im Bereich des Text Mining. Sich in diesen Bereich einzuarbeiten und eine Raffinesse zu entwickeln, scheint auf den ersten Blick im Vergleich zu klassischen, beispielsweise auf Microsoft® Excel basierenden Methoden, ein unverhältnismäßig hoher Aufwand. Doch kann ich Ihnen versprechen, dass es sich aus meiner Erfahrung lohnt und ich werde Ihnen in den weiteren Artikeln dieses Gebiet näherbringen. Sie werden es nicht mehr missen wollen.

Quelle: Blog AddResults

[ Source of images: Adobe Stock ]
Risk Academy

Die Intensiv-Seminare der RiskAcademy® konzentrieren sich auf Methoden und Instrumente für evolutionäre und revolutionäre Wege im Risikomanagement.

Seminare ansehen
Newsletter

Der Newsletter RiskNEWS informiert über Entwicklungen im Risikomanagement, aktuelle Buchveröffentlichungen sowie Kongresse und Veranstaltungen.

jetzt anmelden
Lösungsanbieter

Sie suchen eine Softwarelösung oder einen Dienstleister rund um die Themen Risikomanagement, GRC, IKS oder ISMS?

Partner finden