190.021 Einführung in die Datenmodellierung (4ECTS VU, WS)

Note, this course is held in German, for English-speaking students there is an exercise group (Group E) in which the lecture part is repeated at the beginning of each unit.

A course description in English can be found via MUOnline.

Dieser Kurs wird durch ein online Buch zur Datenmodellierung unterstützt. Dieses Buch ist in der Entstehungsphase und wird während des Semesters mit Inhalten befüllt.

Kursbeschreibung

Die Datenmodellierung spielt eine wesentliche Rolle in modernen Unternehmen. Unzählige Prozessdaten werden gespeichert und zur Prozessoptimierung, zur Qualitätssicherung oder zum Verbessern der Arbeitssicherheit verwendet.

Aber um welche Daten handelt es sich dabei, wie werden die Daten gespeichert und verarbeitet, und wie können damit die obigen Ziele, z.b. durch KI-Methoden erreicht werden? Diese Fragen werden in dieser Lehrveranstaltung behandelt.

Ziele der Lehrveranstaltung (LV)

Das Ziel der LV ist die Vermittlung von Kompetenzen zur Datenmodellierung und nicht die Anwendung spezieller Tools.

Um das zu erreichen werden Konzepte (z.B. was sind Datenstörungen, wie erkennt man sie und wie können sie behoben werden) vermittelt und an Beispielen im HS interaktiv und eigenständig erprobt. Es ist keine Datenbankenvorlesung.

Erworbene Kompetenzen

Grundlagen der Datenmodellierung kennen. Dazu gehören die unterschiedlichen Daten (quantitative und kategoriale Variablen) und Aufnahme/Modellierungsarten (z.B. Exceltabellen, Datenbanken, Arrays, etc.), Diskretisierungsgrundlagen (Nyquist-Shannon Theorem) und Informationstheorie-Grundlagen (Entropie der Daten).
Die Notwendigkeit von Kenntnissen zur Datenmodellierung durch Expertenvorträge aus der deutschsprachigen Industrie oder von Experten der MUL erkennen. Eingeladene Experten stellen ihre Daten, Modellierungsverfahren und die nötigen Kenntnisse der Mitarbeiter vor.
Korrelationen erkennen und für Vorhersagen nützen.
Daten visuell aufbereiten können, z.b. mit online Tools wie Jupyter Notebooks, https://www.chartle.com,https://plotdb.com, oder unserem zukünftigen Research Data Management Repository (https://inveniordm.web.cern.ch).
Probleme wie Ausreißer, Störungen, fehlende Messwerte in Daten erkennen können und Lösungsstrategien anwenden können.
Unterschiedliche Datensatzformate und Zugriffsmöglichkeiten kennen, z.B.: online Datenbanken kennen und verarbeiten können (https://www.statista.com, https://trends.google.com/trends/, https://ourworldindata.org).
Eigene Datenmanagementsysteme erstellen können (SQLLite, mariadb, CSV, Excel) und mit Visualisierungstools verknüpfen können (graphana, Jupyter NB, etc).
Grundlagen der Statistik auf Daten anwenden können (Mittelwert, Median, Standardabweichung, Quantiles, Tests auf Normalverteilung der Daten, Korrelationen visualisieren).
Das Funktionsprinzip von maschinellen Lernmethoden auf Daten beschreiben können: Begriffe wie Vorhersagen, abhängige Variablen, erklärende Variablen erklären können.
Onlinetools (lineare- und nichtlineare Regressionen) zur Vorhersage anwenden können.

Schwerpunktthemen

Grundlagen der Datenmodellierung (Prozesse -> Sensoren -> Daten -> Variablen)
Grundlagen der Datenspeicherung (Diskretisierung, Nyquist-Shannon Theorem, Datenspeicherungsarten)
Imformationstheorie-Grundlagen (Entropie der Daten)
Grundlagen der Datenanalyse (Ausreißer, Störungen, fehlende Messwerte)
Grundlagen Statistik zur Datenanalyse (Ziele, Werkzeuge, Auswertungsbeispiele)
Ausgewählte Beispiele zur Datenmodellierung (lineare/nicht-lineare Regression, neuronale Netze)

Unterrichtsformat

Die LV baut auf vier Säulen auf:

Grundlagenvermittlung per Frontalunterricht im Hörsaal mit interaktiven Elementen.
Praktische Übungen in Gruppen in Computerräumen. Hier werden Jupyter Notebooks, Exceltabellen und online Tools zur Datenmodellierung verwendet.
Expertenvorträge zur Datenmodellierung aus Unternehmenssicht (was ist der Stand der Technik im Unternehmen, was müssen Studierende beherrschen, wenn sie bei diesen Unternehmen arbeiten wollen).
Expertenvorträge zu weiterführenden Inhalten an der Montanuniversität (Wo und wie wende ich im Laufe des Studiums die Kenntnisse an, z.B. Machine Learning, IoT, etc.).

Links and Ressourcen

- MUOnline
- MOODLE

Empfohlene Fachliteratur

Jiawei, Han, and Kamber Micheline. Data mining: concepts and techniques. Morgan kaufmann, 2006. ISBN 978-0-12-381479-1.
Link: https://myweb.sabanciuniv.edu/rdehkharghani/files/2016/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Micheline-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-2011.pdf
Keim, Daniel, Kai-Uwe Sattler, and AG Technologische Wegbereiter. “Von Daten zu KI.” Intelligentes Datenmanagement als Basis für Data Science und den Einsatz Lernender Systeme. Whitepaper aus der Plattform Lernende Systeme, München. Abgerufen am 05.09.2024.
Link: https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_Whitepaper_Von_Daten_zu_KI.pdf
Ilyas, I. F., & Chu, X. (2019): Data Cleaning. ACM Press. ISBN:978-1-4503-7152-0

Ort und Zeit

Vorlesungen und Expertenvorträge: HS 1 Studienzentrum
- jede Woche am Montag (11:00-13:00), ab dem 10.11.2025
- jede Woche am Donnerstag (11:00-12:00), ab dem 20.11.2025
Übungen: Es gibt 4 Gruppen zur Auswahl mit unterschiedlichen Zeiten. Alle Gruppen werden auf Englisch abgehalten.
- Gruppe 1: Montag (16:00-18:00) CR Hilbert [Juki]
- Gruppe 2: Montag (18:00-20:00) CR Hilbert [Juki]
- Gruppe 3: Dienstag (14:00-16:00) CR Hilbert [Melanie]
- Gruppe 4: Dienstag (16:00-18:00) CR Hilbert [Niko]

Notwendiges Vorwissen

Keine.

Folien und Unterlagen

Folgende Termine sind für die LV vorgesehen. Jedoch gilt die Liste als vorläufig und nicht alle Termine werden benötigt.

10.11.2025 (Montag)
- Einführungsvorlesung und Organisation
17.11.2025 (Montag)
- [Expertenvortrag] DI Daniel Valtiner, B.Sc. MBA, Infineon Technologies Austria AG, Titel: Chancen und Herausforderungen beim Einsatz von Large Language Models in der Fertigung von Halbleitertechnologie.
20.11.2025 (Donnerstag)
- Grundlagen der Datenmodellierung (Gummi Baer Experiment)
24.11.2025 (Montag)
- Prozesse
27.11.2025 (Donnerstag)
- Sensoren
01.12.2025 (Montag)
- Grundlagen der Datenspeicherung Teil 1 (Objekte und Attribute, Daten Relationen, Datenspeicherung)
04.12.2025 (Donnerstag)
- Grundlagen der Datenspeicherung Teil 2 (Datenspeichertypen, Relationale Datenbanken, Tabellenkalkulation mit Formeln)
11.12.2025 (Donnerstag)
- Imformationstheorie-Grundlagen (Entropie der Daten)
15.12.2025 (Montag)
- Grundlagen der Datenanalyse (Ausreißer, Störungen, fehlende Messwerte)
18.12.2025 (Donnerstag)
- Grundlagen der Daten Organisation (Ziele, k-Fold cross validation)
12.01.2026 (Montag)
- Ausgewählte Beispiele zur Datenmodellierung (lineare/nicht-lineare Regression, neuronale Netze)
15.01.2026 (Donnerstag)
- Q&A Prüfungsvorbereitung: Cheat-Sheet Besprechung.
19.01.2026 (Montag)
- Kursevaluation.
26.01.2026 (Montag)
- 12:00-13:30 Schriftliche Prüfung Option 1
- 13:30-15:00 Schriftliche Prüfung Option 2
06.03.2026 (Freitag)
- 13:00-14:30 Schriftliche Prüfung Option 3
17.04.2026 (Freitag)
- 13:00-14:30 Schriftliche Prüfung Option 4
02.06.2026 (Dienstag)
- 12:00-13:30 Schriftliche Prüfung Option 5
xx.10.2026 (TBD)
- XX-XX Schriftliche Prüfung Option 6

Benotung

Die Benotung erfolgt immanent. Insgesamt können 100 Punkte durch aktives Mitarbeiten, Übungsblätter und durch Prüfungen erworben werden. Die Punkte werden über Moodle verwaltet und können jederzeit eingesehen werden.

Die finale schriftliche Prüfung wird über Moodle abgehalten.

Details zur Benotung werden in der ersten Vorlesungseinheit vorgestellt, d.h. am 10.11.2025.

Benotungsschema: 0-49,9 Punkte (5), 50-65,9 Punkte (4), 66-79 Punkte (3), 80-91 Punkte (2), 92-100 Punkte (1).

Bei einer Gesamtpunktzahl von bis zu 79 % KANN (!) auch eine zusätzliche mündliche Leistungsüberprüfung erforderlich sein, wenn der positive Leistungsnachweis nicht eindeutig ist. In diesem Fall werden Sie informiert, sobald die Noten bekannt gegeben werden. Wenn Sie bereits eine Note über MU online erhalten haben, werden Sie nicht zu einer weiteren mündlichen Leistungskontrolle eingeladen.

Literatur

Jiawei, Han, and Kamber Micheline. Data mining: concepts and techniques. Morgan kaufmann, 2006. ISBN 978-0-12-381479-1.
Link: https://myweb.sabanciuniv.edu/rdehkharghani/files/2016/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Micheline-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-2011.pdf

Keim, Daniel, Kai-Uwe Sattler, and AG Technologische Wegbereiter. “Von Daten zu KI.” Intelligentes Datenmanagement als Basis für Data Science und den Einsatz Lernender Systeme. Whitepaper aus der Plattform Lernende Systeme, München. Abgerufen am 05.09.2024.
Link: https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_Whitepaper_Von_Daten_zu_KI.pdf
Ilyas, I. F., & Chu, X. (2019): Data Cleaning. ACM Press. ISBN:978-1-4503-7152-0
You find five copies at our university library.

Chair of Cyber-Physical-Systems

Montanuniversität Leoben, Austria