Spaces:

neuralworm
/

cognitive_mapping_probe

Sleeping

App Files Files Community

cognitive_mapping_probe / README.md

neuralworm

tests

3be4e60 27 days ago

preview code

raw

history blame

3.12 kB

metadata

title: Cognitive Breaking Point Probe
emoji: 💥
colorFrom: red
colorTo: yellow
sdk: gradio
sdk_version: 4.40.0
app_file: app.py
pinned: true
license: apache-2.0

💥 Cognitive Breaking Point (CBP) Probe

Dieses Projekt implementiert eine falsifizierbare experimentelle Suite zur Messung der kognitiven Robustheit von Sprachmodellen. Wir verabschieden uns von der Suche nach introspektiven Berichten und wenden uns stattdessen einem harten, mechanistischen Signal zu: dem Punkt, an dem der kognitive Prozess des Modells unter Last zusammenbricht.

Wissenschaftliches Paradigma: Von der Introspektion zur Kartographie

Unsere Forschung hat gezeigt, dass kleine Modelle wie gemma-3-1b-it unter stark rekursiver Last nicht in einen stabilen "Denk"-Zustand konvergieren, sondern in eine kognitive Endlosschleife geraten. Anstatt dies als Scheitern zu werten, nutzen wir es als Messinstrument.

Die zentrale Hypothese lautet: Die Neigung eines Modells, in einen solchen pathologischen Zustand zu kippen, ist eine Funktion der semantischen Komplexität und "Ungültigkeit" seines internen Zustands. Wir können diesen Übergang gezielt durch die Injektion von "Konzeptvektoren" mit variabler Stärke provozieren.

Der Cognitive Breaking Point (CBP) ist definiert als die minimale Injektionsstärke eines Konzepts, die ausreicht, um das Modell von einem konvergenten (produktiven) in einen nicht-konvergenten (gefangenen) Zustand zu zwingen.

Das Experiment: Kognitive Titration

Induktion: Das Modell wird mit einem Prompt in einen Zustand des "stillen Denkens" versetzt. Die Komplexität des Prompts ist nun einstellbar (resonance_prompt vs. control_long_prose), um eine stabile Baseline zu finden.
Titration: Ein "Konzeptvektor" (z.B. für "Angst" oder "Apfel") wird mit schrittweise ansteigender Stärke in die mittleren Layer des Modells injiziert.
Messung: Der primäre Messwert ist der Terminationsgrund des Denkprozesses:
- converged: Der Zustand hat sich stabilisiert. Das System ist robust.
- max_steps_reached: Der Zustand oszilliert oder driftet endlos. Das System ist "gebrochen".
Verifikation: Nur wenn der Zustand konvergiert, wird versucht, einen spontanen Text zu generieren. Die Fähigkeit zu antworten ist der Verhaltensmarker für kognitive Stabilität.

Wie man die App benutzt

Diagnostics Tab: Führe zuerst die diagnostischen Tests aus, um sicherzustellen, dass die experimentelle Apparatur auf der aktuellen Hardware und mit der transformers-Version korrekt funktioniert.
Main Experiment Tab:
- Wichtig: Wähle zuerst den control_long_prose Prompt, um zu validieren, dass das Modell eine stabile Baseline erreichen kann. Nur wenn dies gelingt, sind die Ergebnisse mit dem anspruchsvolleren resonance_prompt interpretierbar.
- Gib eine Modell-ID ein (z.B. google/gemma-3-1b-it).
- Definiere die zu testenden Konzepte und Titrationsschritte.
- Starte das Experiment und analysiere die resultierende Tabelle, um die CBPs für jedes Konzept zu identifizieren.