190.021 Einführung in die Datenmodellierung (4ECTS VU, WS)

image_pdfimage_print

Note, this course is held in German, for English-speaking students there is an exercise group (Group E) in which the lecture part is repeated at the beginning of each unit.  

A course description in English can be found via MUOnline

Dieser Kurs wird durch ein online Buch zur Datenmodellierung unterstützt. Dieses Buch ist in der Entstehungsphase und wird während des Semesters mit Inhalten befüllt. 

Kursbeschreibung

Die Datenmodellierung spielt eine wesentliche Rolle in modernen Unternehmen. Unzählige Prozessdaten werden gespeichert und zur Prozessoptimierung, zur Qualitätssicherung oder zum Verbessern der Arbeitssicherheit verwendet.

Aber um welche Daten handelt es sich dabei, wie werden die Daten gespeichert und verarbeitet, und wie können damit die obigen Ziele, z.b. durch KI-Methoden erreicht werden? Diese Fragen werden in dieser Lehrveranstaltung behandelt. 

Ziele der Lehrveranstaltung (LV)

Das Ziel der LV ist die Vermittlung von Kompetenzen zur Datenmodellierung und nicht die Anwendung spezieller Tools.

Um das zu erreichen werden Konzepte (z.B. was sind Datenstörungen, wie erkennt man sie und wie können sie behoben werden) vermittelt und an Beispielen im HS interaktiv und eigenständig erprobt. Es ist keine Datenbankenvorlesung.  

Erworbene Kompetenzen

  • Grundlagen der Datenmodellierung kennen. Dazu gehören die unterschiedlichen Daten (quantitative und kategoriale Variablen) und Aufnahme/Modellierungsarten (z.B. Exceltabellen, Datenbanken, Arrays, etc.), Diskretisierungsgrundlagen (Nyquist-Shannon Theorem) und Informationstheorie-Grundlagen (Entropie der Daten).
  • Die Notwendigkeit von Kenntnissen zur Datenmodellierung durch Expertenvorträge aus der deutschsprachigen Industrie oder von Experten der MUL erkennen. Eingeladene Experten stellen ihre Daten, Modellierungsverfahren und die nötigen Kenntnisse der Mitarbeiter vor.  
  • Korrelationen erkennen und für Vorhersagen nützen.
  • Daten visuell aufbereiten können, z.b. mit online Tools wie Jupyter Notebooks, https://www.chartle.com,https://plotdb.com, oder unserem zukünftigen Research Data Management Repository (https://inveniordm.web.cern.ch).
  • Probleme wie Ausreißer, Störungen, fehlende Messwerte in Daten erkennen können und Lösungsstrategien anwenden können.
  • Unterschiedliche Datensatzformate und Zugriffsmöglichkeiten kennen, z.B.: online Datenbanken kennen und verarbeiten können (https://www.statista.com, https://trends.google.com/trends/, https://ourworldindata.org).
  • Eigene Datenmanagementsysteme erstellen können (SQLLite, mariadb, CSV, Excel) und mit Visualisierungstools verknüpfen können (graphana, Jupyter NB, etc).
  • Grundlagen der Statistik auf Daten anwenden können (Mittelwert, Median, Standardabweichung, Quantiles, Tests auf Normalverteilung der Daten, Korrelationen visualisieren).
  • Das Funktionsprinzip von maschinellen Lernmethoden auf Daten beschreiben können: Begriffe wie Vorhersagen, abhängige Variablen, erklärende Variablen erklären können.
  • Onlinetools (lineare- und nichtlineare Regressionen) zur Vorhersage anwenden können.

Schwerpunktthemen

  • Grundlagen der Datenmodellierung (Prozesse -> Sensoren -> Daten -> Variablen)
  • Grundlagen der Datenspeicherung (Diskretisierung, Nyquist-Shannon Theorem, Datenspeicherungsarten)
  • Imformationstheorie-Grundlagen (Entropie der Daten)
  • Grundlagen der Datenanalyse (Ausreißer, Störungen, fehlende Messwerte)
  • Grundlagen Statistik zur Datenanalyse (Ziele, Werkzeuge, Auswertungsbeispiele)
  • Ausgewählte Beispiele zur Datenmodellierung (lineare/nicht-lineare Regression, neuronale Netze)

Unterrichtsformat

Die LV baut auf vier Säulen auf:

  1. Grundlagenvermittlung per Frontalunterricht im Hörsaal mit interaktiven Elementen.
  2. Praktische Übungen in Gruppen in Computerräumen. Hier werden Jupyter Notebooks, Exceltabellen und online Tools zur Datenmodellierung verwendet.  
  3. Expertenvorträge zur Datenmodellierung aus Unternehmenssicht (was ist der Stand der Technik im Unternehmen, was müssen Studierende beherrschen, wenn sie bei diesen Unternehmen arbeiten wollen).
  4. Expertenvorträge zu weiterführenden Inhalten an der Montanuniversität (Wo und wie wende ich im Laufe des Studiums die Kenntnisse an, z.B. Machine Learning, IoT, etc.).

Links and Ressourcen

Empfohlene Fachliteratur

  • Jiawei, Han, and Kamber Micheline. Data mining: concepts and techniques. Morgan kaufmann, 2006. ISBN 978-0-12-381479-1.
    Link: https://myweb.sabanciuniv.edu/rdehkharghani/files/2016/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Micheline-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-2011.pdf
  • Keim, Daniel, Kai-Uwe Sattler, and AG Technologische Wegbereiter. “Von Daten zu KI.” Intelligentes Datenmanagement als Basis für Data Science und den Einsatz Lernender Systeme. Whitepaper aus der Plattform Lernende Systeme, München. Abgerufen am 05.09.2024.
    Link: https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_Whitepaper_Von_Daten_zu_KI.pdf
  • Ilyas, I. F., & Chu, X. (2019): Data Cleaning. ACM Press. ISBN:978-1-4503-7152-0

Ort und Zeit

  • Vorlesungen und Expertenvorträge: HS 1 Studienzentrum
    • jede Woche am Montag (11:00-13:00), ab dem 11.11.2024
    • jede Woche am Donnerstag (11:00-12:00), ab dem 14.11.2024
  • Übungen: Es gibt 10 Gruppen zur Auswahl mit unterschiedlichen Zeiten. Gruppe E wird in Englisch abgehalten. Aufgrund von Ausnahmen, bitte im MUOnline die genauen Termine beachten.
    • Gruppe 1: Dienstag (14:00-16:00) CR Hilbert [Tanja]
    • Gruppe 2: Dienstag (16:00-18:00) CR Hilbert [Juki]
    • Gruppe 4: Mittwoch (14:00-16:00) CR Hilbert [Tanja]
    • Gruppe 5: Mittwoch (16:00-18:00) CR Hilbert [Rino]
    • Gruppe 6: Mittwoch (18:00-20:00) CR Hilbert [Rino]
    • Gruppe Englisch: Mittwoch (16:00-18:30) CR IL/IT, CR IZR [Juki]
  • Bei Bedarf:
    • Gruppe 7: Montag (16:00-18:00) CR Hilbert
    • Gruppe 8: Dienstag (16:00-18:00) CR IZR
    • Gruppe 9: Mittwoch (14:00-16:00) CR IZR
  • Wird nicht angeboten: 
    • Gruppe 3 (Wird nicht abgehalten): Dienstag (18:00-20:00) HS TPT
 

Notwendiges Vorwissen

Keine. 

Folien und Unterlagen

Folgende Termine sind für die LV vorgesehen. Jedoch gilt die Liste als vorläufig und nicht alle Termine werden benötigt.  

  • 11.11.2024 (Montag)
  • 14.11.2024 (Donnerstag)
  • 18.11.2024 (Montag)
  • 21.11.2024 (Donnerstag)
    • Grundlagen der Datenspeicherung (Diskretisierung, Nyquist-Shannon Theorem, Datenspeicherungsarten)
  • 25.11.2024 (Montag)
    • Imformationstheorie-Grundlagen (Entropie der Daten)
  • 28.11.2024 (Donnerstag)
    • Grundlagen der Datenanalyse (Ausreißer, Störungen, fehlende Messwerte)
  • 02.12.2024 (Montag)
    • Grundlagen Statistik zur Datenanalyse (Ziele, Werkzeuge, Auswertungsbeispiele)
  • 05.12.2024 (Donnerstag)
    • Ausgewählte Beispiele zur Datenmodellierung (lineare/nicht-lineare Regression, neuronale Netze)
  • 09.12.2024 (Montag)
    • [Expertenvortrag] DI Clemens Friedl, Systemtechnik / Teamleiter Software Engineering Elektronik, Wacker Neuson Linz GmbH, Titel: KI Anwendungsbeispiele in Baumaschinen.
  • 12.12.2024 (Donnerstag)
    • Platzhalter
  • 16.12.2024 (Montag)
    • Platzhalter
  • 20.12.2024 (Donnerstag)
    • Platzhalter
  • 13.01.2025 (Montag)
    • Platzhalter
  • 16.01.2025 (Donnerstag)
    • Platzhalter
  • 20.01.2025 (Montag)
    • [Expertenvortrag] DI Daniel Valtiner, B.Sc. MBA, Infineon Technologies Austria AG, Titel: Chancen und Herausforderungen beim Einsatz von Large Language Models in der Fertigung von Halbleitertechnologie.
  • 23.01.2025 (Donnerstag)
    • [Expertenvortrag] Dr. Nils Rottmann, HAKO GmbH, Titel: Datenmodellierungskonzepte und Umsetzungsbeispiele von autonomen Reinigungsfahrzeugen im industriellen Umfeld.
  • 27.01.2025 (Montag)
    • Q&A Prüfungsvorbereitung
  • 30.01.2025 (Donnerstag)
    • Schriftliche Prüfung

Benotung

Die Benotung erfolgt immanent. Insgesamt können 100 Punkte durch aktives Mitarbeiten, Übungsblätter und durch Prüfungen erworben werden. Die Punkte werden über Moodle verwaltet und können jederzeit eingesehen werden. 

Die finale schriftliche Prüfung wird über Moodle abgehalten. 

Details zur Benotung werden in der ersten Vorlesungseinheit vorgestellt, d.h. am 11.11.2024. 

Benotungsschema: 0-49,9 Punkte (5), 50-65,9 Punkte (4), 66-79 Punkte (3), 80-91 Punkte (2), 92-100 Punkte (1).

Bei einer Gesamtpunktzahl von bis zu 79 % KANN (!) auch eine zusätzliche mündliche Leistungsüberprüfung erforderlich sein, wenn der positive Leistungsnachweis nicht eindeutig ist. In diesem Fall werden Sie informiert, sobald die Noten bekannt gegeben werden. Wenn Sie bereits eine Note über MU online erhalten haben, werden Sie nicht zu einer weiteren mündlichen Leistungskontrolle eingeladen.

Literatur