Data Quality Check
Im Rahmen der Datenwerkstatt Jena 2025 und als Teil des KollOM-FIT-Projekts wurde eine umfassende Qualitätsanalyse der FIM-Datenbestände durchgeführt. Die Analyse umfasste sowohl XZuFi-Daten für Thüringen als auch 1.154 xDatenfeld-Dateien mit ihren Validierungsregeln. Die Ergebnisse zeigen signifikante Lücken in der Datenvollständigkeit bei XZuFi sowie Versionierungsproblematiken bei den xDatenfeld-Regeln und liefern wichtige Erkenntnisse für die Weiterentwicklung der Datenqualität im FIM-Ökosystem.
Motivation und Zielsetzung
Die Qualität der Daten im Föderalen Informationsmanagement (FIM) ist entscheidend für die erfolgreiche Digitalisierung der öffentlichen Verwaltung. Im Rahmen einer Challenge während der Datenwerkstatt Jena 2025 wurde eine systematische Analyse durchgeführt, um:
- Datenvollständigkeit bei Verwaltungsleistungen (XZuFi) zu bewerten
- Qualität der Validierungsregeln (xDatenfeld) zu untersuchen
- Verbesserungspotenziale zu identifizieren
- Automatisierungsmöglichkeiten für Qualitätssicherung zu entwickeln
Die Erkenntnisse sollen der FITKO und den beteiligten Ländern helfen, Qualitätsstandards zu definieren und die Nutzbarkeit der Daten für Bürger*innen zu verbessern.
Methodisches Vorgehen
XZuFi-Vollständigkeitsanalyse
Die Analyse des XZuFi-Datensatzes für Thüringen erfolgte mit Python-basierten Werkzeugen:
- Systematische Überprüfung der Befüllung von sieben Kerndatenfeldern
- Visualisierung von Vollständigkeitsgraden mit Diagrammen
- Netzwerkanalyse zur Identifikation von Beziehungen zwischen Leistungen
- Statistische Auswertung mit Jupyter Notebooks
xDatenfeld-Regelanalyse
Die technische Analyse der xDatenfeld-Dateien fokussierte sich auf Validierungsregeln:
- Automatisierte Extraktion von 8.407 eindeutigen RegelIDs aus 1.154 XML-Dateien
- Klassifizierung von Freitext- vs. strukturierten Regeln
- Komplexitätsanalyse zur Identifikation verschachtelter Bedingungslogik
- Versionskonsistenz-Prüfung zur Aufdeckung von Widersprüchen
Entwickelte Tools
Das Projektteam entwickelte wiederverwendbare Analysewerkzeuge:
- xsdata-basierte Parser-Klassen aus XSD-Schemas für typsichere XML-Verarbeitung
- Python-Analyseskripte für RegelID-Extraktion und Duplikatserkennung
- Jupyter Notebooks für interaktive Datenexploration
- Graph-Visualisierungen mit d3.js für Regelbeziehungen
Zentrale Erkenntnisse
XZuFi-Datenvollständigkeit
Die Analyse offenbart erhebliche Unterschiede in der Befüllung der Kerndatenfelder:
| Datenfeld | Vollständigkeit | Bewertung |
|---|---|---|
| Rechtsgrundlagen | 92,9% | ⭐⭐⭐ Sehr gut |
| Kosten/Gebühren | 83,7% | ⭐⭐⭐ Gut |
| Voraussetzungen | 78,3% | ⭐⭐ Befriedigend |
| Zuständige Stelle | 45,4% | ⭐ Mangelhaft |
| Schriftform (Angaben vorhanden) | 34,9% | ⭐ Mangelhaft |
| Bearbeitungsdauer | 26,0% | ⚠️ Unzureichend |
| Schriftform (erforderlich) | 7,9% | ⚠️ Kritisch niedrig |
Kritische Erkenntnisse:
- Weniger als die Hälfte der Einträge enthält Zuständigkeitsinformationen (45,4%) – essentiell für Bürger*innen
- Nur 26% dokumentieren die Bearbeitungsdauer – wichtig für Erwartungssteuerung
- Schriftformangaben stark unterrepräsentiert – relevant für digitale Antragstellung
Positive Erkenntnisse:
- Rechtsgrundlagen mit 92,9% am vollständigsten dokumentiert
- Zeigt, dass vollständige Dokumentation grundsätzlich möglich ist
xDatenfeld-Regelqualität
Die Analyse der Validierungsregeln ergab überwiegend positive Ergebnisse:
Strukturierung
- 91,9% der Dateien nutzen strukturierte Prosa Regeldefinitionen
Datenbasis:
- 1.154 .xdf.xml-Dateien analysiert
- 8.407 eindeutige RegelIDs identifiziert
- 6.980 unique Regeldefinitionen bei Berücksichtigung von Versionierung
Versionierungsproblematik:
- 53 RegelIDs haben widersprüchliche Definitionen in verschiedenen Dateien
- Ursache: Versionsinformationen werden nicht konsistent berücksichtigt
- Lösung: Bei Berücksichtigung der Versionsnummer (IDvVersion) ist jede Kombination eindeutig
Regelkomplexität:
- Extrem komplexe Regeln mit konditionaler Logik identifiziert
- Längste Regel: R00001190v1.1 mit verschachtelten Bedingungen für Asbestanzeigen
- Komplexität durch: Multiple UND/ODER-Verknüpfungen, zeitliche Bedingungen, hierarchische Feldgruppenabhängigkeiten
Generierte Datenprodukte
Die Analyse hat mehrere wiederverwendbare Datenprodukte hervorgebracht:
- Vollständige Zuordnung von Regel-IDs mit Versionsinformationen zu ihren Definitionen (12.743 Einträge)
- Deduplizierte Liste unique Definitionen mit zugeordneten Regel-ID-Versionen (6.980 Definitionen)
- Top-10-Komplexitätsliste der komplexesten Regeln für vertiefende Fallstudien
- Häufigkeitsanalyse aller Regeln mit Occurrence-Counts (13.593 Einträge)
- Spezialisierte Analysen zu Duplikaten, Widersprüchen und Freitext-Regeln
Identifizierte Probleme und Empfehlungen
Problem 1: Datenvollständigkeit bei XZuFi
Problem: Erhebliche Lücken in der Dokumentation essentieller Informationen
Auswirkung:
- Bürger*innen können nicht verlässlich die zuständige Stelle identifizieren
- Keine realistische Zeitplanung möglich (nur 26% mit Bearbeitungsdauer)
- Unklare Verfahrensanforderungen bezüglich Schriftform
Empfehlung: Einführung von Qualitätsstandards und Mindestanforderungen für XZuFi-Einträge mit Pflichtfeldern
Problem 2: Inkonsistente Datenformate
Problem: Inkonsistente Befüllung optionaler Felder
Auswirkung:
- Maschinelle Verarbeitung erschwert
- Unterschiedliche Informationsdichte je nach Behörde
- Keine standardisierte Nutzererfahrung möglich
Empfehlung: Pflichtfelder definieren und deren Befüllung durchsetzen
Problem 3: Versionierungskonflikte
Problem: 53 RegelIDs mit widersprüchlichen Definitionen durch inkonsistente Versionsverwaltung
Auswirkung:
- Unsicherheit über korrekte Regelversion
- Potenzielle Fehler in der Validierung
Empfehlung: Konsistente Versionsverwaltung implementieren, eindeutige ID+Version-Kombination durchsetzen
Laufende Arbeiten
Das Data-Quality-Check-Projekt wird mit drei Schwerpunkten fortgeführt:
1. FIM-Qualitätsstandardsprüfung
Systematische Überprüfung, inwieweit FIM-Qualitätsstandards bei der Erstellung vorhandener Regeln beachtet wurden:
- Überprüfung der Regelformulierungen auf Konsistenz
- Validierung der Feldverweise und IDs
- Prüfung auf Einhaltung von Namenskonventionen
- Identifikation von Best Practices und häufigen Fehlern
- Ableitung von Verbesserungsvorschlägen für zukünftige Regelerstellung
2. RegEx-Regel-Implementierung
Praktische Umsetzung von RegEx-Regeln basierend auf der Masterarbeit von Maximilian Raupach:
- Überführung theoretischer RegEx-Muster in ausführbaren Code
- Automatische Validierung eines Teils der vorhandenen Regeln
- Entwicklung eines Regelwerk-Validators
- Reduzierung manueller Prüfaufwände
- Grundlage für automatisierte Qualitätssicherung
3. Abstract Syntax Tree (AST) für Freitext-Regeln
Entwicklung einer Lösung zur Strukturierung von Freitext-Regeln:
- Überführung der identifizierten Freitext-Regeln in einen abstrakten Syntaxbaum
- Ermöglicht strukturierte Darstellung und maschinelle Verarbeitung
- Reduziert den Anteil nicht maschinell verarbeitbarer Regeln
- Basis für einheitliche Regelverarbeitung im gesamten FIM-Ökosystem
Bedeutung für KollOM-FIT
Die Data-Quality-Check-Ergebnisse haben direkte Relevanz für das KollOM-FIT-Projekt:
Wissensgraph-Qualität
- Datenqualität als Grundlage: Hochwertige Wissensgraphen benötigen qualitativ hochwertige Eingangsdaten
- Automatisierte Validierung: Entwickelte Tools können zur kontinuierlichen Qualitätssicherung eingesetzt werden
- Versionskonsistenz: Erkenntnisse zur Versionsverwaltung sind auf ontologische Modellierung übertragbar
Standards und Interoperabilität
- FIM-Compliance: Qualitätsstandards tragen zur besseren Interoperabilität bei
- Strukturierte Daten: Hohe Quote strukturierter Regeln (91,9%) erleichtert Wissensgraph-Integration
- Terminologien: Regelanalysen können zur Identifikation benötigter Terminologien beitragen
Praktische Anwendbarkeit
- Automatisierung: Entwickelte Parser und Analyseskripte sind auf andere FIM-Daten übertragbar
- Use-Case-Validierung: Qualitätskriterien helfen bei der Bewertung von Use-Cases
- Stakeholder-Relevanz: Erkenntnisse unterstützen Kommunikation mit Ländern und FITKO
Ausblick
Die systematische Qualitätsanalyse hat gezeigt, dass:
- Strukturierung funktioniert: 91,9% der Dateien nutzen strukturierte Regeldefinitionen
- Versionierung notwendig: Die 53 widersprüchlichen RegelIDs zeigen die Notwendigkeit konsistenter Versionsverwaltung
- Komplexität beherrschbar: Auch sehr komplexe Regeln lassen sich strukturiert darstellen
- Automatisierung möglich: Die entwickelten Tools zeigen, dass automatisierte Qualitätsprüfung machbar ist
- Standards durchsetzbar: Die laufenden Arbeiten zu FIM-Qualitätsstandards und RegEx-Validierung ebnen den Weg für verbindliche Qualitätsanforderungen