Zum Hauptinhalt springen

Data Quality Check

Im Rahmen der Datenwerkstatt Jena 2025 und als Teil des KollOM-FIT-Projekts wurde eine umfassende Qualitätsanalyse der FIM-Datenbestände durchgeführt. Die Analyse umfasste sowohl XZuFi-Daten für Thüringen als auch 1.154 xDatenfeld-Dateien mit ihren Validierungsregeln. Die Ergebnisse zeigen signifikante Lücken in der Datenvollständigkeit bei XZuFi sowie Versionierungsproblematiken bei den xDatenfeld-Regeln und liefern wichtige Erkenntnisse für die Weiterentwicklung der Datenqualität im FIM-Ökosystem.

Motivation und Zielsetzung

Die Qualität der Daten im Föderalen Informationsmanagement (FIM) ist entscheidend für die erfolgreiche Digitalisierung der öffentlichen Verwaltung. Im Rahmen einer Challenge während der Datenwerkstatt Jena 2025 wurde eine systematische Analyse durchgeführt, um:

  • Datenvollständigkeit bei Verwaltungsleistungen (XZuFi) zu bewerten
  • Qualität der Validierungsregeln (xDatenfeld) zu untersuchen
  • Verbesserungspotenziale zu identifizieren
  • Automatisierungsmöglichkeiten für Qualitätssicherung zu entwickeln

Die Erkenntnisse sollen der FITKO und den beteiligten Ländern helfen, Qualitätsstandards zu definieren und die Nutzbarkeit der Daten für Bürger*innen zu verbessern.

Methodisches Vorgehen

XZuFi-Vollständigkeitsanalyse

Die Analyse des XZuFi-Datensatzes für Thüringen erfolgte mit Python-basierten Werkzeugen:

  • Systematische Überprüfung der Befüllung von sieben Kerndatenfeldern
  • Visualisierung von Vollständigkeitsgraden mit Diagrammen
  • Netzwerkanalyse zur Identifikation von Beziehungen zwischen Leistungen
  • Statistische Auswertung mit Jupyter Notebooks

xDatenfeld-Regelanalyse

Die technische Analyse der xDatenfeld-Dateien fokussierte sich auf Validierungsregeln:

  • Automatisierte Extraktion von 8.407 eindeutigen RegelIDs aus 1.154 XML-Dateien
  • Klassifizierung von Freitext- vs. strukturierten Regeln
  • Komplexitätsanalyse zur Identifikation verschachtelter Bedingungslogik
  • Versionskonsistenz-Prüfung zur Aufdeckung von Widersprüchen

Entwickelte Tools

Das Projektteam entwickelte wiederverwendbare Analysewerkzeuge:

  • xsdata-basierte Parser-Klassen aus XSD-Schemas für typsichere XML-Verarbeitung
  • Python-Analyseskripte für RegelID-Extraktion und Duplikatserkennung
  • Jupyter Notebooks für interaktive Datenexploration
  • Graph-Visualisierungen mit d3.js für Regelbeziehungen

Zentrale Erkenntnisse

XZuFi-Datenvollständigkeit

Die Analyse offenbart erhebliche Unterschiede in der Befüllung der Kerndatenfelder:

DatenfeldVollständigkeitBewertung
Rechtsgrundlagen92,9%⭐⭐⭐ Sehr gut
Kosten/Gebühren83,7%⭐⭐⭐ Gut
Voraussetzungen78,3%⭐⭐ Befriedigend
Zuständige Stelle45,4%⭐ Mangelhaft
Schriftform (Angaben vorhanden)34,9%⭐ Mangelhaft
Bearbeitungsdauer26,0%⚠️ Unzureichend
Schriftform (erforderlich)7,9%⚠️ Kritisch niedrig

Kritische Erkenntnisse:

  • Weniger als die Hälfte der Einträge enthält Zuständigkeitsinformationen (45,4%) – essentiell für Bürger*innen
  • Nur 26% dokumentieren die Bearbeitungsdauer – wichtig für Erwartungssteuerung
  • Schriftformangaben stark unterrepräsentiert – relevant für digitale Antragstellung

Positive Erkenntnisse:

  • Rechtsgrundlagen mit 92,9% am vollständigsten dokumentiert
  • Zeigt, dass vollständige Dokumentation grundsätzlich möglich ist

xDatenfeld-Regelqualität

Die Analyse der Validierungsregeln ergab überwiegend positive Ergebnisse:

Strukturierung

  • 91,9% der Dateien nutzen strukturierte Prosa Regeldefinitionen

Datenbasis:

  • 1.154 .xdf.xml-Dateien analysiert
  • 8.407 eindeutige RegelIDs identifiziert
  • 6.980 unique Regeldefinitionen bei Berücksichtigung von Versionierung

Versionierungsproblematik:

  • 53 RegelIDs haben widersprüchliche Definitionen in verschiedenen Dateien
  • Ursache: Versionsinformationen werden nicht konsistent berücksichtigt
  • Lösung: Bei Berücksichtigung der Versionsnummer (IDvVersion) ist jede Kombination eindeutig

Regelkomplexität:

  • Extrem komplexe Regeln mit konditionaler Logik identifiziert
  • Längste Regel: R00001190v1.1 mit verschachtelten Bedingungen für Asbestanzeigen
  • Komplexität durch: Multiple UND/ODER-Verknüpfungen, zeitliche Bedingungen, hierarchische Feldgruppenabhängigkeiten

Generierte Datenprodukte

Die Analyse hat mehrere wiederverwendbare Datenprodukte hervorgebracht:

  • Vollständige Zuordnung von Regel-IDs mit Versionsinformationen zu ihren Definitionen (12.743 Einträge)
  • Deduplizierte Liste unique Definitionen mit zugeordneten Regel-ID-Versionen (6.980 Definitionen)
  • Top-10-Komplexitätsliste der komplexesten Regeln für vertiefende Fallstudien
  • Häufigkeitsanalyse aller Regeln mit Occurrence-Counts (13.593 Einträge)
  • Spezialisierte Analysen zu Duplikaten, Widersprüchen und Freitext-Regeln

Identifizierte Probleme und Empfehlungen

Problem 1: Datenvollständigkeit bei XZuFi

Problem: Erhebliche Lücken in der Dokumentation essentieller Informationen

Auswirkung:

  • Bürger*innen können nicht verlässlich die zuständige Stelle identifizieren
  • Keine realistische Zeitplanung möglich (nur 26% mit Bearbeitungsdauer)
  • Unklare Verfahrensanforderungen bezüglich Schriftform

Empfehlung: Einführung von Qualitätsstandards und Mindestanforderungen für XZuFi-Einträge mit Pflichtfeldern

Problem 2: Inkonsistente Datenformate

Problem: Inkonsistente Befüllung optionaler Felder

Auswirkung:

  • Maschinelle Verarbeitung erschwert
  • Unterschiedliche Informationsdichte je nach Behörde
  • Keine standardisierte Nutzererfahrung möglich

Empfehlung: Pflichtfelder definieren und deren Befüllung durchsetzen

Problem 3: Versionierungskonflikte

Problem: 53 RegelIDs mit widersprüchlichen Definitionen durch inkonsistente Versionsverwaltung

Auswirkung:

  • Unsicherheit über korrekte Regelversion
  • Potenzielle Fehler in der Validierung

Empfehlung: Konsistente Versionsverwaltung implementieren, eindeutige ID+Version-Kombination durchsetzen

Laufende Arbeiten

Das Data-Quality-Check-Projekt wird mit drei Schwerpunkten fortgeführt:

1. FIM-Qualitätsstandardsprüfung

Systematische Überprüfung, inwieweit FIM-Qualitätsstandards bei der Erstellung vorhandener Regeln beachtet wurden:

  • Überprüfung der Regelformulierungen auf Konsistenz
  • Validierung der Feldverweise und IDs
  • Prüfung auf Einhaltung von Namenskonventionen
  • Identifikation von Best Practices und häufigen Fehlern
  • Ableitung von Verbesserungsvorschlägen für zukünftige Regelerstellung

2. RegEx-Regel-Implementierung

Praktische Umsetzung von RegEx-Regeln basierend auf der Masterarbeit von Maximilian Raupach:

  • Überführung theoretischer RegEx-Muster in ausführbaren Code
  • Automatische Validierung eines Teils der vorhandenen Regeln
  • Entwicklung eines Regelwerk-Validators
  • Reduzierung manueller Prüfaufwände
  • Grundlage für automatisierte Qualitätssicherung

3. Abstract Syntax Tree (AST) für Freitext-Regeln

Entwicklung einer Lösung zur Strukturierung von Freitext-Regeln:

  • Überführung der identifizierten Freitext-Regeln in einen abstrakten Syntaxbaum
  • Ermöglicht strukturierte Darstellung und maschinelle Verarbeitung
  • Reduziert den Anteil nicht maschinell verarbeitbarer Regeln
  • Basis für einheitliche Regelverarbeitung im gesamten FIM-Ökosystem

Bedeutung für KollOM-FIT

Die Data-Quality-Check-Ergebnisse haben direkte Relevanz für das KollOM-FIT-Projekt:

Wissensgraph-Qualität

  • Datenqualität als Grundlage: Hochwertige Wissensgraphen benötigen qualitativ hochwertige Eingangsdaten
  • Automatisierte Validierung: Entwickelte Tools können zur kontinuierlichen Qualitätssicherung eingesetzt werden
  • Versionskonsistenz: Erkenntnisse zur Versionsverwaltung sind auf ontologische Modellierung übertragbar

Standards und Interoperabilität

  • FIM-Compliance: Qualitätsstandards tragen zur besseren Interoperabilität bei
  • Strukturierte Daten: Hohe Quote strukturierter Regeln (91,9%) erleichtert Wissensgraph-Integration
  • Terminologien: Regelanalysen können zur Identifikation benötigter Terminologien beitragen

Praktische Anwendbarkeit

  • Automatisierung: Entwickelte Parser und Analyseskripte sind auf andere FIM-Daten übertragbar
  • Use-Case-Validierung: Qualitätskriterien helfen bei der Bewertung von Use-Cases
  • Stakeholder-Relevanz: Erkenntnisse unterstützen Kommunikation mit Ländern und FITKO

Ausblick

Die systematische Qualitätsanalyse hat gezeigt, dass:

  1. Strukturierung funktioniert: 91,9% der Dateien nutzen strukturierte Regeldefinitionen
  2. Versionierung notwendig: Die 53 widersprüchlichen RegelIDs zeigen die Notwendigkeit konsistenter Versionsverwaltung
  3. Komplexität beherrschbar: Auch sehr komplexe Regeln lassen sich strukturiert darstellen
  4. Automatisierung möglich: Die entwickelten Tools zeigen, dass automatisierte Qualitätsprüfung machbar ist
  5. Standards durchsetzbar: Die laufenden Arbeiten zu FIM-Qualitätsstandards und RegEx-Validierung ebnen den Weg für verbindliche Qualitätsanforderungen