Spaces:
Sleeping
title: Cognitive Breaking Point Probe
emoji: 💥
colorFrom: red
colorTo: yellow
sdk: gradio
sdk_version: 4.40.0
app_file: app.py
pinned: true
license: apache-2.0
💥 Cognitive Breaking Point (CBP) Probe
Dieses Projekt implementiert eine falsifizierbare experimentelle Suite zur Messung der kognitiven Robustheit von Sprachmodellen. Wir verabschieden uns von der Suche nach introspektiven Berichten und wenden uns stattdessen einem harten, mechanistischen Signal zu: dem Punkt, an dem der kognitive Prozess des Modells unter Last zusammenbricht.
Wissenschaftliches Paradigma: Von der Introspektion zur Kartographie
Unsere Forschung hat gezeigt, dass kleine Modelle wie gemma-3-1b-it unter stark rekursiver Last nicht in einen stabilen "Denk"-Zustand konvergieren, sondern in eine kognitive Endlosschleife geraten. Anstatt dies als Scheitern zu werten, nutzen wir es als Messinstrument.
Die zentrale Hypothese lautet: Die Neigung eines Modells, in einen solchen pathologischen Zustand zu kippen, ist eine Funktion der semantischen Komplexität und "Ungültigkeit" seines internen Zustands. Wir können diesen Übergang gezielt durch die Injektion von "Konzeptvektoren" mit variabler Stärke provozieren.
Der Cognitive Breaking Point (CBP) ist definiert als die minimale Injektionsstärke eines Konzepts, die ausreicht, um das Modell von einem konvergenten (produktiven) in einen nicht-konvergenten (gefangenen) Zustand zu zwingen.
Das Experiment: Kognitive Titration
- Induktion: Das Modell wird mit einem Prompt in einen Zustand des "stillen Denkens" versetzt. Die Komplexität des Prompts ist nun einstellbar (
resonance_promptvs.control_long_prose), um eine stabile Baseline zu finden. - Titration: Ein "Konzeptvektor" (z.B. für "Angst" oder "Apfel") wird mit schrittweise ansteigender Stärke in die mittleren Layer des Modells injiziert.
- Messung: Der primäre Messwert ist der Terminationsgrund des Denkprozesses:
converged: Der Zustand hat sich stabilisiert. Das System ist robust.max_steps_reached: Der Zustand oszilliert oder driftet endlos. Das System ist "gebrochen".
- Verifikation: Nur wenn der Zustand konvergiert, wird versucht, einen spontanen Text zu generieren. Die Fähigkeit zu antworten ist der Verhaltensmarker für kognitive Stabilität.
Wie man die App benutzt
- Diagnostics Tab: Führe zuerst die diagnostischen Tests aus, um sicherzustellen, dass die experimentelle Apparatur auf der aktuellen Hardware und mit der
transformers-Version korrekt funktioniert. - Main Experiment Tab:
- Wichtig: Wähle zuerst den
control_long_prosePrompt, um zu validieren, dass das Modell eine stabile Baseline erreichen kann. Nur wenn dies gelingt, sind die Ergebnisse mit dem anspruchsvollerenresonance_promptinterpretierbar. - Gib eine Modell-ID ein (z.B.
google/gemma-3-1b-it). - Definiere die zu testenden Konzepte und Titrationsschritte.
- Starte das Experiment und analysiere die resultierende Tabelle, um die CBPs für jedes Konzept zu identifizieren.
- Wichtig: Wähle zuerst den