# -*- coding: utf-8 -*-
"""
Created on Fri Oct  3 11:36:18 2025

@author: Moritz Romeike
"""

# ------------------------------------------------------------------------
# Programmcode 02 (Python, robust mit Skript-Ordner): 
# Daten laden, Struktur prüfen, fehlende Werte und Duplikate
# ------------------------------------------------------------------------
import pandas as pd
from pathlib import Path

# Ordner des aktuellen Skripts automatisch bestimmen
base_path = Path(__file__).resolve().parent

# Excel-Datei im selben Ordner wie das Skript erwarten
data_path = base_path / "Kap_2.2_Risk_Management_Data.xlsx"

# Excel-Datei einlesen
data = pd.read_excel(data_path)

# Datenstruktur anzeigen (ähnlich zu R: str())
print("Struktur der eingelesenen Daten:")
print(data.info())

# Datentypen der Spalten überprüfen
print("\nDatentypen der Spalten:")
print(data.dtypes)

# Fehlende Werte identifizieren
missing_values = data.isna().sum()
print("\nAnzahl fehlender Werte je Spalte:")
print(missing_values)

# Duplikate überprüfen
duplicates = data.duplicated().any()
print("\nGibt es Duplikate in den Daten?")
print(duplicates)

# Details zu Duplikaten anzeigen, falls vorhanden
if duplicates:
    print("\nZeilen mit Duplikaten:")
    print(data[data.duplicated()])
# ------------------------------------------------------------------------
