Kolumne

Text Mining

Ansatz zur Betrugserkennung in Buchungsbelegen

Alexander Bast

Text Mining: Ansatz zur Betrugserkennung in Buchungsbelegen

Ein bekanntes Sprichwort sagt: "Zahlen lügen nicht". Und doch zeigen sie nie die ganze Wahrheit. Lassen Sie uns gemeinsam zwischen den Zahlen lesen und durch Textanalysen einen möglichen Betrug aufdecken.

Es gibt zahlreiche Modelle und Möglichkeiten, um betrügerische Handlungen in getätigten Buchungen eines Unternehmens festzustellen. Die meisten dieser Methoden befassen sich mit einer Analyse der angegebenen Kalkulationen und Zahlenwerten.

Liegen einige dieser Werte stark außerhalb eines Zahlenbereichs, so wird jeder Prüfer schnell aufmerksam. Folgen alle Zahlenwerte korrekt der Unternehmenslogik, so kommt nur schwer der Verdacht eines Betrugs auf.

Eine Täuschung kann sich jedoch auch auf anderen Ebenen bemerkbar machen. Betrachtet man beispielsweise die Buchungstexte aller getätigter Buchungen, kann ein bisher unerkanntes Muster oder eine ungewöhnliche Verwendung bestimmter Buchungstexte einen Betrug geschickt verschleiern. Im Alltag begegnet man allerdings häufig so großen Datenmengen, so dass es fast unmöglich ist, diese Aufgabe mit simplen Methoden zu lösen. Die Wahl einer auf Text Mining basierenden Methode der Betrugserkennung kann hier Abhilfe schaffen.

Was ist Text Mining?

Als Text Mining bezeichnet man formal einen Prozess, mit dem man aus unstrukturiertem Text numerisch relevante Kennzahlen extrahiert und damit eine Struktur bereitstellt, die sich zu einer weiteren Analyse eignet. Ein Text-Mining-System liefert dem Benutzer statistisch relevante Informationen über den Inhalt des Dokuments, die bisher verborgen geblieben sind und ermöglicht damit ein breites Spektrum an Einsatzmöglichkeiten.

Eine praktische Anwendung findet man beispielsweise in der SAP® Tabelle BKPF, die den Belegkopf für die Buchhaltung enthält. Hier wird unter dem Feld BKTXT ein Belegkopftext vermerkt und ist in diesem Fallbeispiel unsere Grundlage für eine Auswertung mit Text-Mining-Systemen. Es gibt viele Programmiersprachen, die für Text Mining in Frage kommen, doch haben Python und R die Nase vorn, es bleibt dem Anwender aber frei sich für eine Programmiersprache zu entscheiden.

Abb. 01: Export der Tabelle BKPF im SAP®-SystemAbb. 01: Export der Tabelle BKPF im SAP®-System

Nach einem Export der Tabelle BKPF liegt uns diese als Excel- oder Textdatei vor. Eine gründliche Bereinigung der Daten ermöglicht uns schließlich die isolierte Betrachtung aller Buchungstexte. Nun steht es uns frei Buchungstexte zu aggregieren, zusammenzufassen, die absoluten und relativen Häufigkeiten zu bestimmen und Korrelationen und andere statistisch relevanten Kennzahlen zu ermitteln. Im direkten Vergleich zur Verwendung von Microsoft® Excel triumphiert das Text-Mining-System durch die beinahe vollautomatisierte Bearbeitung dieser Daten und liefert dem Anwender schnell aussagekräftige Informationen. Die Funktionalität die vorliegenden Textfragmente auf Hypothesen zu testen, ermöglicht dem Anwender ein noch breiteres Anwendungsspektrum. Sie haben also einen Verdacht? Dann lassen Sie ihn einfach überprüfen.

Indizien zur Betrugserkennung

Häuft sich eine Buchung ungewöhnlich, oder folgt eine Buchung in einer bisher unbekannten Regelmäßigkeit einer anderen Buchung, so wären dies zwei Indizien dafür, dass man einen genaueren Blick auf diese Datensätze werfen sollte.

Möglicherweise wurden Buchungen vorgenommen, die bewusst mit einem falschen Buchungstext versehen wurden. Oder man findet ungewöhnliche Frequenzen in der Abfolge und kann feststellen, dass – wie so häufig – ein bestimmtes Muster benutzt wurde, um einen Betrug zu vertuschen.

Ausreißer stellen den Abschluss dieser kleinen Einführung und sind damit nicht von minderem Interesse. Beim systematischen Betrug kann diese Auswertung Buchungen finden, die in einer sehr niedrigen aber doch regelmäßigen Frequenz getätigt wurden und sich so im Verborgenen, über Jahre hinweg ein erheblicher Geldbetrag erschlichen werden konnte.

Wo heute noch Prüfer viel Arbeit in die Auswertung von textbasierten Dokumenten stecken, gab es in den letzten Jahren einen erheblichen und bisher noch wenig genutzten Fortschritt im Bereich des Text Mining. Sich in diesen Bereich einzuarbeiten und eine Raffinesse zu entwickeln, scheint auf den ersten Blick im Vergleich zu klassischen, beispielsweise auf Microsoft® Excel basierenden Methoden, ein unverhältnismäßig hoher Aufwand. Doch kann ich Ihnen versprechen, dass es sich aus meiner Erfahrung lohnt und ich werde Ihnen in den weiteren Artikeln dieses Gebiet näherbringen. Sie werden es nicht mehr missen wollen.

Quelle: Blog AddResults

[ Bildquelle: Adobe Stock ]


Themenverwandte Artikel

Rezension

Realistischer Polit-Thriller

Der Honiganzeiger

Redaktion RiskNET

Der Polit-Thriller von Sibylle Barden beginnt mit dem Zitat des US-amerikanischen Journalisten Edward R. Murrow: "Eine Nation von Schafen wird bald…

News

Frühwarnung

Warnung vor Risiken aus Leveraged Loans und Verbriefungen

Redaktion RiskNET

Der Financial Stability Board (FSB) hat vor den Risiken für die Finanzstabilität gewarnt, die sich aus der Kreditvergabe an hoch verschuldete…

Kolumne

Lob der Rezession

Zombie-Unternehmen ausbremsen

Martin W. Hüfner, Chief Economist, Assenagon Asset Management S.A.

Seit dem zweiten Weltkrieg hat es in Deutschland sechs Rezessionen gegeben, in denen das reale BIP absolut zurückgegangen ist. Das waren jeweils…

Interview

Neue Ära der Großmachtkonflikte

Erosionsprozesse der geopolitischen Welt

Redaktion RiskNET

Die geopolitische Welt befindet sich in einem massiven Erosionsprozess. Das heißt vor allem: Wir erleben die Rückkehr der Großmachtrivalität und eine…

Kolumne

ESG-Risiken und -Chancen

Nachhaltigkeitsrisiken im Fokus

Christoph Betz et al. [KPMG]

Am 24. September 2019 hat die Bundesanstalt für Finanzdienstleistungsaufsicht (BaFin) ein Merkblatt zum Umgang mit Nachhaltigkeitsrisiken in einer…