Data Quality Check

Im Rahmen der Datenwerkstatt Jena 2025 und als Teil des KollOM-FIT-Projekts wurde eine umfassende Qualitätsanalyse der FIM-Datenbestände durchgeführt. Die Analyse umfasste sowohl XZuFi-Daten für Thüringen als auch 1.154 xDatenfeld-Dateien mit ihren Validierungsregeln. Die Ergebnisse zeigen signifikante Lücken in der Datenvollständigkeit bei XZuFi sowie Versionierungsproblematiken bei den xDatenfeld-Regeln und liefern wichtige Erkenntnisse für die Weiterentwicklung der Datenqualität im FIM-Ökosystem.

Motivation und Zielsetzung

Die Qualität der Daten im Föderalen Informationsmanagement (FIM) ist entscheidend für die erfolgreiche Digitalisierung der öffentlichen Verwaltung. Im Rahmen einer Challenge während der Datenwerkstatt Jena 2025 wurde eine systematische Analyse durchgeführt, um:

Datenvollständigkeit bei Verwaltungsleistungen (XZuFi) zu bewerten
Qualität der Validierungsregeln (xDatenfeld) zu untersuchen
Verbesserungspotenziale zu identifizieren
Automatisierungsmöglichkeiten für Qualitätssicherung zu entwickeln

Die Erkenntnisse sollen der FITKO und den beteiligten Ländern helfen, Qualitätsstandards zu definieren und die Nutzbarkeit der Daten für Bürger*innen zu verbessern.

Methodisches Vorgehen

XZuFi-Vollständigkeitsanalyse

Die Analyse des XZuFi-Datensatzes für Thüringen erfolgte mit Python-basierten Werkzeugen:

Systematische Überprüfung der Befüllung von sieben Kerndatenfeldern
Visualisierung von Vollständigkeitsgraden mit Diagrammen
Netzwerkanalyse zur Identifikation von Beziehungen zwischen Leistungen
Statistische Auswertung mit Jupyter Notebooks

xDatenfeld-Regelanalyse

Die technische Analyse der xDatenfeld-Dateien fokussierte sich auf Validierungsregeln:

Automatisierte Extraktion von 8.407 eindeutigen RegelIDs aus 1.154 XML-Dateien
Klassifizierung von Freitext- vs. strukturierten Regeln
Komplexitätsanalyse zur Identifikation verschachtelter Bedingungslogik
Versionskonsistenz-Prüfung zur Aufdeckung von Widersprüchen

Entwickelte Tools

Das Projektteam entwickelte wiederverwendbare Analysewerkzeuge:

xsdata-basierte Parser-Klassen aus XSD-Schemas für typsichere XML-Verarbeitung
Python-Analyseskripte für RegelID-Extraktion und Duplikatserkennung
Jupyter Notebooks für interaktive Datenexploration
Graph-Visualisierungen mit d3.js für Regelbeziehungen

Zentrale Erkenntnisse

XZuFi-Datenvollständigkeit

Die Analyse offenbart erhebliche Unterschiede in der Befüllung der Kerndatenfelder:

Datenfeld	Vollständigkeit	Bewertung
Rechtsgrundlagen	92,9%	⭐⭐⭐ Sehr gut
Kosten/Gebühren	83,7%	⭐⭐⭐ Gut
Voraussetzungen	78,3%	⭐⭐ Befriedigend
Zuständige Stelle	45,4%	⭐ Mangelhaft
Schriftform (Angaben vorhanden)	34,9%	⭐ Mangelhaft
Bearbeitungsdauer	26,0%	⚠️ Unzureichend
Schriftform (erforderlich)	7,9%	⚠️ Kritisch niedrig

Kritische Erkenntnisse:

Weniger als die Hälfte der Einträge enthält Zuständigkeitsinformationen (45,4%) – essentiell für Bürger*innen
Nur 26% dokumentieren die Bearbeitungsdauer – wichtig für Erwartungssteuerung
Schriftformangaben stark unterrepräsentiert – relevant für digitale Antragstellung

Positive Erkenntnisse:

Rechtsgrundlagen mit 92,9% am vollständigsten dokumentiert
Zeigt, dass vollständige Dokumentation grundsätzlich möglich ist

xDatenfeld-Regelqualität

Die Analyse der Validierungsregeln ergab überwiegend positive Ergebnisse:

Strukturierung

91,9% der Dateien nutzen strukturierte Prosa Regeldefinitionen

Datenbasis:

1.154 .xdf.xml-Dateien analysiert
8.407 eindeutige RegelIDs identifiziert
6.980 unique Regeldefinitionen bei Berücksichtigung von Versionierung

Versionierungsproblematik:

53 RegelIDs haben widersprüchliche Definitionen in verschiedenen Dateien
Ursache: Versionsinformationen werden nicht konsistent berücksichtigt
Lösung: Bei Berücksichtigung der Versionsnummer (IDvVersion) ist jede Kombination eindeutig

Regelkomplexität:

Extrem komplexe Regeln mit konditionaler Logik identifiziert
Längste Regel: R00001190v1.1 mit verschachtelten Bedingungen für Asbestanzeigen
Komplexität durch: Multiple UND/ODER-Verknüpfungen, zeitliche Bedingungen, hierarchische Feldgruppenabhängigkeiten

Generierte Datenprodukte

Die Analyse hat mehrere wiederverwendbare Datenprodukte hervorgebracht:

Vollständige Zuordnung von Regel-IDs mit Versionsinformationen zu ihren Definitionen (12.743 Einträge)
Deduplizierte Liste unique Definitionen mit zugeordneten Regel-ID-Versionen (6.980 Definitionen)
Top-10-Komplexitätsliste der komplexesten Regeln für vertiefende Fallstudien
Häufigkeitsanalyse aller Regeln mit Occurrence-Counts (13.593 Einträge)
Spezialisierte Analysen zu Duplikaten, Widersprüchen und Freitext-Regeln

Identifizierte Probleme und Empfehlungen

Problem 1: Datenvollständigkeit bei XZuFi

Problem: Erhebliche Lücken in der Dokumentation essentieller Informationen

Auswirkung:

Bürger*innen können nicht verlässlich die zuständige Stelle identifizieren
Keine realistische Zeitplanung möglich (nur 26% mit Bearbeitungsdauer)
Unklare Verfahrensanforderungen bezüglich Schriftform

Empfehlung: Einführung von Qualitätsstandards und Mindestanforderungen für XZuFi-Einträge mit Pflichtfeldern

Problem 2: Inkonsistente Datenformate

Problem: Inkonsistente Befüllung optionaler Felder

Auswirkung:

Maschinelle Verarbeitung erschwert
Unterschiedliche Informationsdichte je nach Behörde
Keine standardisierte Nutzererfahrung möglich

Empfehlung: Pflichtfelder definieren und deren Befüllung durchsetzen

Problem 3: Versionierungskonflikte

Problem: 53 RegelIDs mit widersprüchlichen Definitionen durch inkonsistente Versionsverwaltung

Auswirkung:

Unsicherheit über korrekte Regelversion
Potenzielle Fehler in der Validierung

Empfehlung: Konsistente Versionsverwaltung implementieren, eindeutige ID+Version-Kombination durchsetzen

Laufende Arbeiten

Das Data-Quality-Check-Projekt wird mit drei Schwerpunkten fortgeführt:

1. FIM-Qualitätsstandardsprüfung

Systematische Überprüfung, inwieweit FIM-Qualitätsstandards bei der Erstellung vorhandener Regeln beachtet wurden:

Überprüfung der Regelformulierungen auf Konsistenz
Validierung der Feldverweise und IDs
Prüfung auf Einhaltung von Namenskonventionen
Identifikation von Best Practices und häufigen Fehlern
Ableitung von Verbesserungsvorschlägen für zukünftige Regelerstellung

2. RegEx-Regel-Implementierung

Praktische Umsetzung von RegEx-Regeln basierend auf der Masterarbeit von Maximilian Raupach:

Überführung theoretischer RegEx-Muster in ausführbaren Code
Automatische Validierung eines Teils der vorhandenen Regeln
Entwicklung eines Regelwerk-Validators
Reduzierung manueller Prüfaufwände
Grundlage für automatisierte Qualitätssicherung

3. Abstract Syntax Tree (AST) für Freitext-Regeln

Entwicklung einer Lösung zur Strukturierung von Freitext-Regeln:

Überführung der identifizierten Freitext-Regeln in einen abstrakten Syntaxbaum
Ermöglicht strukturierte Darstellung und maschinelle Verarbeitung
Reduziert den Anteil nicht maschinell verarbeitbarer Regeln
Basis für einheitliche Regelverarbeitung im gesamten FIM-Ökosystem

Bedeutung für KollOM-FIT

Die Data-Quality-Check-Ergebnisse haben direkte Relevanz für das KollOM-FIT-Projekt:

Wissensgraph-Qualität

Datenqualität als Grundlage: Hochwertige Wissensgraphen benötigen qualitativ hochwertige Eingangsdaten
Automatisierte Validierung: Entwickelte Tools können zur kontinuierlichen Qualitätssicherung eingesetzt werden
Versionskonsistenz: Erkenntnisse zur Versionsverwaltung sind auf ontologische Modellierung übertragbar

Standards und Interoperabilität

FIM-Compliance: Qualitätsstandards tragen zur besseren Interoperabilität bei
Strukturierte Daten: Hohe Quote strukturierter Regeln (91,9%) erleichtert Wissensgraph-Integration
Terminologien: Regelanalysen können zur Identifikation benötigter Terminologien beitragen

Praktische Anwendbarkeit

Automatisierung: Entwickelte Parser und Analyseskripte sind auf andere FIM-Daten übertragbar
Use-Case-Validierung: Qualitätskriterien helfen bei der Bewertung von Use-Cases
Stakeholder-Relevanz: Erkenntnisse unterstützen Kommunikation mit Ländern und FITKO

Ausblick

Die systematische Qualitätsanalyse hat gezeigt, dass:

Strukturierung funktioniert: 91,9% der Dateien nutzen strukturierte Regeldefinitionen
Versionierung notwendig: Die 53 widersprüchlichen RegelIDs zeigen die Notwendigkeit konsistenter Versionsverwaltung
Komplexität beherrschbar: Auch sehr komplexe Regeln lassen sich strukturiert darstellen
Automatisierung möglich: Die entwickelten Tools zeigen, dass automatisierte Qualitätsprüfung machbar ist
Standards durchsetzbar: Die laufenden Arbeiten zu FIM-Qualitätsstandards und RegEx-Validierung ebnen den Weg für verbindliche Qualitätsanforderungen

Motivation und Zielsetzung​

Methodisches Vorgehen​

XZuFi-Vollständigkeitsanalyse​

xDatenfeld-Regelanalyse​

Entwickelte Tools​

Zentrale Erkenntnisse​

XZuFi-Datenvollständigkeit​

xDatenfeld-Regelqualität​

Generierte Datenprodukte​

Identifizierte Probleme und Empfehlungen​

Problem 1: Datenvollständigkeit bei XZuFi​

Problem 2: Inkonsistente Datenformate​

Problem 3: Versionierungskonflikte​

Laufende Arbeiten​

1. FIM-Qualitätsstandardsprüfung​

2. RegEx-Regel-Implementierung​

3. Abstract Syntax Tree (AST) für Freitext-Regeln​

Bedeutung für KollOM-FIT​

Wissensgraph-Qualität​

Standards und Interoperabilität​

Praktische Anwendbarkeit​

Ausblick​

Motivation und Zielsetzung

Methodisches Vorgehen

XZuFi-Vollständigkeitsanalyse

xDatenfeld-Regelanalyse

Entwickelte Tools

Zentrale Erkenntnisse

XZuFi-Datenvollständigkeit

xDatenfeld-Regelqualität

Generierte Datenprodukte

Identifizierte Probleme und Empfehlungen

Problem 1: Datenvollständigkeit bei XZuFi

Problem 2: Inkonsistente Datenformate

Problem 3: Versionierungskonflikte

Laufende Arbeiten

1. FIM-Qualitätsstandardsprüfung

2. RegEx-Regel-Implementierung

3. Abstract Syntax Tree (AST) für Freitext-Regeln

Bedeutung für KollOM-FIT

Wissensgraph-Qualität

Standards und Interoperabilität

Praktische Anwendbarkeit

Ausblick