Wissensgewinnung aus großen Datenmengen

Große Datenmengen enthalten neben den expliziten Daten meist auch verborgenes Wissen in Form von Mustern (Pattern). Diese Muster können durch maschinelle Lernverfahren und insbesondere durch Data-Mining-Verfahren entdeckt werden und als Unterstützung bei der Beantwortung spezifischer Fragestellungen dienen. Die Extraktion von Wissen aus großen Datenmengen kann Entscheidungsträger aus unterschiedlichen Bereichen wie der Medizin oder der Banken- und Versicherungsbranche bei der täglichen Arbeit unterstützen.

Der Prozess, bei welchem aus großen Datenmengen zusätzliches Wissen gewonnen werden kann, wird als KDD-Prozess (Knowledge Discovery in Databases) bezeichnet. Das Kernstück des KDD-Prozesses ist das Data-Mining, das eine Sammlung von Verfahren zur Mustererkennung umfasst. Das Fraunhofer IOSB untersucht hier neue und bestehende Verfahren, die für die Verbesserung der Datenqualität eingesetzt werden können, beispielsweise um Fehler zu detektieren. Extrahierte Muster werden auch dazu genutzt, maschinelle Lernverfahren zu trainieren. Die gelernten Vorhersagemodelle können dann wiederum den Nutzer beim Einpflegen neuer Daten auf Unregelmäßigkeiten hinweisen. Ein essentieller Faktor, der bei Vorhersagemodellen berücksichtigen werden muss, ist die Interpretierbarkeit. Vor allem in sensiblen Bereichen (wie beispielweise der Medizin) ist die Nachvollziehbarkeit der Vorhersageergebnisse von großer Bedeutung.

In der medizinischen Domäne können Qualitätssicherungsverfahren für Untersuchungsergebnisse wie zum Beispiel Blutwerte eingesetzt werden. Ein weiterer Anwendungsbereich ist die Entdeckung von falsch eingegebenen Daten in großen Datensätzen.

 

Abteilung Interaktive Analyse und Diagnose

Sie wollen mehr über unsere Projekte und Produkte erfahren? Dann besuchen Sie die Seite unserer Abteilung.