Mathematik für Machine Learning

Ein interaktives Repository für mathematische Fundamente.

Zweck dieses Projekts

Der ML Math Hub ist eine spezialisierte Sammlung von Konzepten und Informationen, die essentiell sind, um die mathematischen Hintergründe hinter Machine Learning (ML) und Künstlicher Intelligenz (KI) tiefgreifend zu verstehen. Das Ziel ist es, die Logik hinter den Formeln Schritt für Schritt zu erarbeiten und als Wissensbasis festzuhalten.

Statistik & Wahrscheinlichkeit

Diskrete vs. stetige Variablen, Erwartungswerte und Streuungsmaße.

Unterseite öffnen

Parameter vs. Hyperparameter

Interne Gewichte ($\theta$) vs. externe Steuerung ($\alpha$) eines Modells.

Unterseite öffnen

Grundlegende Algorithmen

Regression vs. Klassifikation und die Funktionsweise linearer Modelle.

Unterseite öffnen

Neuronale Netze

Vom Perzeptron bis zum Deep Learning: Architektur und Aktivierungsfunktionen.

Unterseite öffnen

Mathe-Tips & Griechische Syntax

Cheat Sheet

Name	Symbol	Code	Bedeutung
Mü	$\mu$	$\mu$	Mittelwert / Erwartungswert ($E[X]$)
Sigma	$\sigma$	$\sigma$	Standardabweichung (Streuung)
Theta	$\theta$	$\theta$	Allgemeine Modellparameter / Gewichte
Alpha	$\alpha$	$\alpha$	Lernrate beim Gradient Descent
Epsilon	$\epsilon$	$\epsilon$	Fehlerterm / statistisches Rauschen

Statistik & Wahrscheinlichkeit

Diskrete Variablen, Erwartungswerte und Streuungsmaße.

(a) Diskrete Wahrscheinlichkeitsfunktion (pmf)

x

(b) Stetige Dichtefunktion (pdf)

x

Diskrete Zufallsvariablen

Definition: Erwartungswert & Durchschnitt

Der Erwartungswert $E(X)$ für eine diskrete Zufallsvariable ist die Summe der einzelnen Ereigniswerte multipliziert mit der Wahrscheinlichkeit für das Eintreten dieses Ereignisses. Das ist dann der Durchschnittswert $\mu$.

Bei einer diskreten Zufallsvariablen $X$ können wir jedem Ergebnis $x_i$ eine exakte Wahrscheinlichkeit zuweisen. Diese Wahrscheinlichkeit wird als **Punktwahrscheinlichkeit** bezeichnet: $Pr(X = x_i)$.

Beispiel: Fairer Münzwurf

Kopf (1)

Zahl (0)

$E[X] = (1 \cdot 0.5) + (0 \cdot 0.5) = 0.5$

Beispiel: Fairer Würfel

1

2

3

4

5

6

$E[X] = \sum x_i \cdot \frac{1}{6} = 3.5$

Erkennungsmerkmale von Verteilungen

1. Text-Kontext

Definition im Begleittext (z.B. "Würfel").

2. Wertebereich

Menge der Ergebnisse $\{x_i\}$.

3. Tilde-Notation

Kurzschrift $X \sim \text{Verteilung}$.

Standardabweichung ($\sigma$)

Was sagt $\sigma$ eigentlich aus?

Während $\mu$ sagt, wo die "Mitte" ist, beschreibt $\sigma$ die Streuung. In der KI ist $\sigma$ oft ein Maß für Unsicherheit oder Vielfalt.

Kleines $\sigma$

Die Daten liegen alle sehr nah am Durchschnitt. Ein Modell ist sich hier sehr "sicher", da die Ergebnisse einheitlich sind.

Großes $\sigma$

Die Daten sind weit verstreut. Es gibt große Unterschiede oder hohe Unsicherheit bei der Vorhersage.

Schritt 1: Der Kern

Abstand jedes Wertes $X$ vom Mittelwert $\mu$: $(X - \mu)$

Schritt 2: Die Quadrierung

Verhindert Aufhebung und gewichtet Ausreißer: $( \dots )^2$

Schritt 3: Der Operator $E[\dots]$ (Summe)

$$ \sigma = \sqrt{\sum_{i=1}^{k} \underbrace{(x_i - \mu)^2}_{\text{Quadrat-Abstand}} \cdot \underbrace{Pr(X = x_i)}_{\text{Gewichtung}}} $$

Schritt 4: Die Korrektur

Die Wurzel $\sqrt{\dots}$ bringt uns zurück auf die ursprüngliche Einheit.

Die vollständige Definition

$$ \sigma = \sqrt{\sum_{i=1}^{k} (x_i - \mu)^2 \cdot Pr(X = x_i)} $$

Standardabweichung = Wurzel aus dem Erwartungswert der quadrierten Abweichungen.

Zusammenfassung der Formeln

Erwartungswert

$$ E[X] = \sum_{i=1}^{k} x_i \cdot Pr(X = x_i) $$

Der gewichtete Durchschnittswert aller Realisierungen.

Varianz

$$ Var(X) = E[(X - E[X])^2] $$

Ein Maß für die Streuung um den Erwartungswert.

Parameter vs. Hyperparameter

Interne Variablen vs. externe Konfiguration.

Parameter ($\theta$)

Die Variablen, die das Modell während des Trainings selbst lernt (z.B. Gewichte).

Hyperparameter ($\alpha$)

Die Einstellungen, die wir vor dem Training festlegen (z.B. Lernrate).

Grundlegende Algorithmen

Regression und Klassifikation.

Regression

Vorhersage stetiger Werte (Preise, Temperatur).

Klassifikation

Zuordnung zu Kategorien (Spam, Diagnose).