Home
Translate

Translate to
About • Licenses • Imprint • Privacy Policy • FAQ • API

Häufig gestellte Fragen (FAQ)

Hier finden Sie Antworten zur Philosophie, Technologie und Nutzung des Ideenatlas.

Der Ideenatlas ist eine 'Ideen-Kurations-Engine'. Er löst ein grundlegendes Problem: Um etwas zu finden, muss man normalerweise wissen, wie es heißt und wonach man sucht. Bei vielen Ideen fehlt das passende Fachvokabular oder Fachwissen, um sie weiter auszuarbeiten und zu verfolgen; hat man sich dieses angeeignet, ist die Idee oft schon vergessen oder scheint irrelevant.

Der Atlas hilft dabei, diese unausgereiften Ideen zu verorten, Forschungslücken aufzudecken und Gedanken im Kontext von Millionen wissenschaftlicher Arbeiten zu validieren.

Klassische Suchmaschinen wie Google basieren auf Keywords. Ohne den exakten Begriff bleiben relevante Ergebnisse oft verborgen. Akademische Alternativen wie Semantic Scholar nutzen häufig Zitationsgraphen, was bereits populäre Arbeiten bevorzugt und Nischenthemen benachteiligt.

Der Ideenatlas nutzt stattdessen einen semantischen Vektorraum. Die Bewertung erfolgt nicht durch SEO, Popularität oder Zitationszahlen, sondern rein durch die mathematische Nähe des Inhalts. Es zählt die semantische Ähnlichkeit, unabhängig vom exakten Wortlaut.

Nein.

Der Ideenatlas wird als offener Forschungsprototyp betrieben. Ziel ist es, wissenschaftliche Recherche transparent und ohne Paywalls oder Werbung zugänglich zu machen.

Der akademischen Recherche liegt ein fundamentales Paradox zugrunde: Um relevante Literatur für eine neue Idee zu finden, muss man das Fachvokabular bereits kennen.

Doch selbst Experten bleiben oft in ihrem spezifischen Jargon gefangen und übersehen dadurch relevante Forschung aus anderen Fachbereichen.

Dies führt zu drei zentralen Hürden in der Wissenschaft:

1. Das Silo-Denken: Forschung findet extrem fachspezifisch statt. Ein Algorithmus aus der Informatik könnte ein Problem der Astrophysik oder Biologie lösen. Doch da die Disziplinen eine andere "Sprache" sprechen, finden sie nicht zueinander und wertvolles Wissen bleibt ungenutzt.

2. Der Popularitäts-Bias: Gängige Suchmaschinen basieren auf Keywords oder Zitationsnetzwerken. Diese Systeme bevorzugen zwangsläufig das, was bereits populär ist. Ein exzellentes, aber wenig zitiertes Paper aus einer Nische landet so systematisch im toten Winkel.

3. Die KI-Falle (Hyper-Relevanz & Black Box): Moderne RAG-Systeme und LLMs versuchen das Problem zu lösen, sind aber auf direkte "perfekte" Antworten getrimmt (Hyper-Relevanz). Sie übersehen systematisch die nicht-offensichtlichen, kreativen Querverbindungen. Zudem bleibt der finale Text-Output von LLMs probabilistisch. Sie agieren als „Black Box“ mit Halluzinationsrisiko, statt die Zusammenhänge von Ideen deterministisch und transparent darzustellen.

Der Ideenatlas löst das Keyword-Dilemma durch transparente, semantische Vektorsuche. Multimodale Nutzereingaben und Millionen Paper werden auf einer interaktiven 2D-Landkarte visuell nach inhaltlicher Nähe geclustert. Statt starrer Textlisten sehen Nutzer sofort, wie Themen zusammenhängen und wo unerwartete Querverbindungen liegen. Diese Aufbereitung bricht, gepaart mit gezielter Serendipität, Silo-Denken auf:

Wissenschaft wird greifbar und grenzenlos.

Der Ideenatlas macht Wissenschaft greifbar, offen und interdisziplinär. Er bietet maßgeschneiderte Mehrwerte für unterschiedlichste Akteure:

Für...

... Novizen & Fachfremde: Sie erhalten neben dem passenden Vokabular sofort eine klare thematische Einordnung. Aus einfachen Alltagsfragen können so fundierte, neue Ideen geformt werden.

... zeitsensible Recherchen: Wer unter Zeitdruck tiefgehende, verlässliche Ergebnisse benötigt, muss nicht auf halluzinierende Chatbots zurückgreifen. Lesenswerte, interdisziplinäre Forschung wird auf einen Blick validiert aufgezeigt.

... interdisziplinäre Forschungsteams: Experten aus völlig unterschiedlichen Disziplinen finden eine gemeinsame thematische Schnittmenge, überwinden ihr Silo-Denken und können neuartige wissenschaftliche Verbindungen herstellen.

... R&D-Abteilungen (Scouting): Unternehmen und Institute können gezielt "verborgene Exzellenz" aufspüren, indem sie brillante, aber unentdeckte Arbeiten finden und die klugen Köpfe dahinter für sich gewinnen.

Fazit: Von neugierigen Studierenden bis hin zu etablierten Forschern ist der Ideenatlas der Kompass, der die akademische Recherche aus der reinen Textwüste befreit und echte Entdeckungen ermöglicht.

Der Ideenatlas wird aktuell von Simon Stumpf (siehe Impressum) als unabhängiges Forschungsprojekt konzipiert, entwickelt und als Proof-of-Concept betrieben.

Eine essenzielle technische Unterstützung erfährt das Solo-Projekt jedoch durch das High Performance Computing des Landes Baden-Württemberg: Nur durch die massiven Rechenkapazitäten des bwUniCluster 3.0 ist die aufwendige Vektorisierung und das Clustering von Millionen wissenschaftlichen Arbeiten für mich als Student überhaupt realisierbar.

Die Vision: In fünf Jahren hat sich der Ideenatlas als unverzichtbares Standardwerkzeug für die wissenschaftliche Frühphasen-Recherche etabliert. Er ersetzt etablierte Großanbieter nicht, sondern agiert als der zentrale Hauptakteur in einer völlig anderen, komplementären Stufe der Recherche: als interaktiver Kompass für die fachübergreifende Ideengenerierung und thematische Orientierung.

Der nachhaltige Impact: Wir stoßen einen Paradigmenwechsel an: Interdisziplinäre Zusammenarbeit scheitert nicht länger an fachlichen Sprachbarrieren. Der Ideenatlas macht das Aufbrechen von Forschungssilos vom Zufall zu einem gezielten Standardprozess. Er verändert, wie wir Innovation begreifen: weg von der reinen Stichwortsuche, hin zur intuitiven Mustererkennung in einer globalen Wissenslandschaft.

Entwicklungsstatus in 5 Jahren:

Datenbasis: Die Pipeline umfasst die Metadaten aller relevanten Open-Access-Repositories weltweit. Ergänzend dazu bestehen strategische Partnerschaften mit Closed-Access-Anbietern, um den Wissensraum ganzheitlich und wissenschaftlich fundiert abzubilden.

Technologie & Infrastruktur: Das System garantiert volle Datenhoheit und Unabhängigkeit. Der Ideenatlas läuft auf eigenen Servern in Deutschland und nutzt ein intern gehostetes, domänenspezifisches LLM (ohne Abhängigkeit von externen APIs wie Gemini).

Unternehmensstruktur & Nachhaltiges Geschäftsmodell: Um den Status als werbe- und trackingfreies „Open Tool“ dauerhaft zu sichern, agiert das Projekt als gemeinnützige GmbH (gGmbH). Die finanzielle Tragfähigkeit beruht auf einer hybriden Quersubventionierung: Die Nutzung der grafischen Weboberfläche bleibt für alle Nutzer stets 100 % kostenfrei. Der hochskalierbare Betrieb (Server & lokales LLM) wird durch ein Freemium-Modell für maschinelle Zugänge (REST API & MCP-Server) finanziert. Während Basis-Abfragen für Studierende und Forscher frei bleiben, zahlen kommerzielle R&D-Abteilungen und Unternehmen für High-Volume-Requests zur automatisierten Datenextraktion. Ergänzt durch institutionelle Fördermittel wird der Ideenatlas so zu einem finanziell autarken, unabhängigen Gemeingut für die globale Wissenschaftsgemeinde.

Der Ideenatlas ist eine KI-gestützte Recherche- und Kurationsplattform, die wissenschaftliche Dokumente auf einer interaktiven 2D-Karte anordnet, um interdisziplinäre Querverbindungen sowie unerwartete Lösungsansätze ("Serendipität") sichtbar zu machen - ganz ohne das exakte Fachvokabular zu kennen.

Das Seitenmenü ist ein seitenübergreifendes Hilfs- und Navigationsmenü, das durch einen Klick auf das Hamburger-Icon oder einfach durch eine Wischgeste geöffnet werden kann.

Es enthält Einstellungen, Hilfsfunktionen, Links zu den verschiedenen Seiten und den lokalen Verlauf.

'Zuletzt' zeigt die Resultathistorie. Alle lokal gespeicherten Resultate werden dort angezeigt. Sie werden nach Zugriffszeit geordnet. Wenn Resultaten ein Stern zugewiesen wird, werden diese zuerst gelistet. Außerdem werden mit einem Stern markierte Resultate nicht automatisch gelöscht, wenn das lokale Speicherlimit erreicht ist.

Trotz der lokalen Historie wird  empfohlen, wichtige Resultate als HTML herunterzuladen, um zukünftige Änderungen oder Datenverlust (z.B. durch Updates) zu vermeiden.

Mit dem Design-Button kann zwischen drei verschiedenen Designs gewechselt werden: Hell, Dunkel und Mitternacht. Der standardmäßige 'System'-Modus erkennt, ob das Gerät des Nutzers im Hell- oder Dunkelmodus ist, und wählt dementsprechend das passende Design aus.

Auf Desktop-Geräten wechselt ein Klick auf den Button direkt das Design; um das Menü zu öffnen, muss also gehovert oder auf das '>' geklickt werden.

Nach Betätigen des 'Übersetzen'-Buttons wird der Auswahlmodus aktiviert. Jeder umrandete Text kann dann angeklickt werden, um schrittweise in die gewählte Zielsprache übersetzt zu werden.

Der Übersetzer läuft lokal auf unseren Servern (weshalb die Verarbeitung etwas mehr Zeit in Anspruch nehmen kann) und unterstützt alle auswählbaren Sprachen.

Nach Betätigen des 'Vorlesen'-Buttons wird der Auswahlmodus aktiviert. Jeder umrandete Text kann dann angeklickt werden. Es öffnet sich ein kleiner Audioplayer, mit dem das Vorlesen pausiert oder abgebrochen werden kann. Zudem kann während des Vorlesens über das Seitenmenu auf alle Seiten des Ideenatlas gewechselt werden; die Wiedergabe läuft dabei weiter. Ein Klick auf das Player-Popup selbst führt direkt zurück zum aktuell vorgelesenen Text.

Die Sprache wird automatisch erkannt, wobei die Erkennung bei extrem kurzen Texten oder einzelnen Wörtern fehlschlagen kann. Es werden viele, aber nicht alle Sprachen unterstützt.

Die ausgewählte Sprache bestimmt die Sprache der Anwendung sowie die Zielsprache für das Übersetzen. Der standardmäßige 'System'-Modus erkennt die Systemsprache des Geräts.

Da alle Texte für die Anwendung manuell übersetzt werden, stehen derzeit nur Deutsch sowie Englisch als Fallback-Sprache zur Verfügung.

Ein Klick auf den 'Hilfe & FAQ'-Knopf und anschließend auf 'Suchen' öffnet eine Suchleiste, mit der man anwendungsübergreifend bereits beantwortete Fragen aufrufen kann.

Je nachdem, auf welcher Seite man sich befindet, wird eine Vorauswahl relevanter Fragen angezeigt, noch bevor man etwas in die Suchleiste eingibt. Beim Anklicken eines Resultats öffnet sich ein Popup, das die Frage und die zugehörige Antwort liefert. Manche Antworten zeigen zusätzlich UI-Elemente an, sofern diese relevant sind.

Der 'Element auswählen'-Button aktiviert den Auswahlmodus. Jedes umrandete Element kann dann angeklickt werden, um eine entsprechende Erklärung aus dem FAQ aufzurufen.

Der FAQ-Eintrag wird in einem Popup angezeigt, das die Frage und die zugehörige Antwort liefert. Manche Antworten zeigen zusätzlich UI-Elemente an, falls diese relevant sind.

Dies ist der ideale Anwendungsfall. Der Atlas übersetzt Alltagssprache in den wissenschaftlichen Kontext. Möglich sind grobe Brainstormings zur Ideenextraktion, naive Fragen, das Zusammenfassen komplexer Texte oder die einfache Suche nach Begriffen.

Der Ideenatlas ist multimodal und verarbeitet verschiedene Eingabeformate. Neben der offensichtlichen Texteingabe lassen sich direkt in einem eingebauten Rekorder Audios aufnehmen und absenden. Außerdem können PDFs, Bilder, Videos oder jede Form von Textdateien hochgeladen werden. Durch die Ideenextraktion mithilfe des LLMs und der Angabe des Ziels der Abfrage können die passenden Informationen als Text weiterverarbeitet werden.

Die Eingaben in das Textfeld werden (bevor sie lokal weiterverarbeitet werden) von einer KI optimiert, um den Nutzen der Antworten zu maximieren.

Damit die KI den Text passend formuliert, muss sie wissen, was du erwartest. Je nach Button passt sie ihren Fokus an. Dieser reicht vom reinen Zusammenfassen bis hin zum Anreichern deiner Idee mit wissenschaftlichen Fachbegriffen.

Wähle dies, wenn du eine konkrete Frage hast oder dir bei einem Thema noch unsicher bist.

Die KI wird angewiesen, deine Lücken mit einem soliden wissenschaftlichen Fundament zu untermauern und fachliche Antworten zu generieren, die sich perfekt für die anschließende Themensuche eignen.

Perfekt für unstrukturiertes Brainstorming oder grobe Gedankengänge.

Die KI filtert deine Kernideen heraus, formuliert daraus eine klare Hypothese und ergänzt (falls nötig) passende wissenschaftliche Fachbegriffe oder Methodenlehren, um deine Idee auffindbar zu machen.

Gedacht für große Textmengen oder hochgeladene Dokumente (wie PDFs).

Die KI analysiert den Text, extrahiert die zentralen Aussagen und Methodiken und verdichtet sie zu einer präzisen Zusammenfassung. So kannst du prüfen, ob es bereits ähnliche Forschungsarbeiten gibt.

Verwende dies, wenn du bereits einen sehr präzisen, fertigen Text hast und keine weitere Interpretation durch die KI wünschst.

Die Eingabe wird strikt objektiv, ohne Hinzufügen von neuem Kontext oder Erklärungen, in eine maschinenlesbare Form für die Vektorsuche übersetzt.

Der Ideen-Text ist die direkte Antwort des KI-Sprachmodells (Gemini) auf die Anfrage des Nutzers. Dem Sprachmodell wurde weder die Google-Suche erlaubt, noch wurden ihm die Ergebnisse, die der Nutzer sieht, zur Verfügung gestellt. Da die Antwort auf möglicherweise veralteten Trainingsdaten beruht, kann sie Fehler enthalten.

Die Antwort ist nicht perfekt, doch das ist für den Zweck des Ideenatlas zweitrangig. Da sie nur als Ausgangspunkt für die weitere Verarbeitung dient, sind sogar Halluzinationen kein Problem. Sie sollte also auch für den Nutzer nicht als Antwort auf eine Frage, sondern als thematische Einleitung, den Ausgangspunkt für die bevorstehende Suche, angesehen werden.

Die Website ist für menschliche Nutzer optimiert, um das Nachdenken anzuregen und Serendipität zu fördern. Ein simpler 'lass die KI denken'-Button würde die Philosophie des Ideenatlas untergraben. Es geht nicht nur darum, ein oder zwei passende Paper zu finden, sondern den gesamten Kontext des Wissensraums um die Idee herum zu erkunden.

Wenn eine KI-Zusammenfassung gewünscht ist, können die Ergebnisse jederzeit als Markdown heruntergeladen und an ein KI-Sprachmodell mit ausreichendem Kontextfenster gegeben werden. Dies empfiehlt sich besonders, wenn Sie in einen interaktiven Dialog mit den Daten treten möchten.

Die Tabs bieten verschiedene Perspektiven auf die Eingabe. Jeder Tab beantwortet dabei eine etwas andere Frage, von sehr spezifisch zu weit gefasst.

'Deine Idee' zeigt die direkte Analyse der Idee. Die dortige Cluster-Hierarchie zeigt, in welchen Bereich die Idee eingeordnet werden würde. Die Ergebnisse geben die direkt relevantesten wissenschaftlichen Arbeiten zurück. Hier findet man die direkte Antwort auf eine Frage.

'Ähnliche Themen' geht in die Vogelperspektive und führt zu den nächsten benachbarten Forschungsfeldern. Statt nach einzelnen wissenschaftlichen Artikeln werden hier ganze Themengebiete gesucht und die Ergebnisse nach jenen gefiltert ausgegeben.

'Serendipität' zeigt inhaltlich entfernte, aber strukturell ähnliche Themen, um das Silo-Denken aufzubrechen und Lösungen aus anderen Fachbereichen sichtbar zu machen. Nicht alle Ergebnisse hier sind passend, aber wenn etwas passt dann oftmals unerwartet und gut.

Die Hierarchie fungiert wie der Zoom auf einer Landkarte, vom Kontinent über das Land bis zur Stadt. Sie verdeutlicht, wie die Eingabe thematisch eingeordnet wurde, vom Allgemeinen zum Speziellen.

TLDR: Die Zahlen gehen von 0 bis 1 wobei gilt: je höher, desto besser.

Der Score stellt kein Qualitätsurteil dar. Er misst lediglich die mathematische Nähe im Vektorraum. Ein hoher Wert bedeutet eine starke inhaltliche Übereinstimmung mit der Anfrage. Er misst mit demselben Maß wie 'Relevanz', der Kosinus-Ähnlichkeit.

'Konfidenz' beschreibt, wie sicher sich der Algorithmus bei der Einordnung der Idee (oder auch der wissenschaftlichen Arbeit) in das Themenfeld war. Ist er sich nicht absolut sicher (Konfidenz <1.0), dann ist die Idee wahrscheinlich fachübergreifend oder die Einordnung ungenau.

'Relevanz' ist eine Eigenheit von 'Ähnliche Themen' und 'Serendipität', sie ist die Kosinus-Ähnlichkeit zwischen dem Eingabevektor und dem Zentroiden des jeweiligen Themengebiets. Ein höherer Wert bedeutet hier eine größere Ähnlichkeit und somit vielversprechendere Resultate.

Das 'rohe JSON' ist ein ein- und ausklappbarer Bereich, der alle Informationen, die in der Datenbank zu einem Eintrag existieren, im unformatierten JSON-Format anzeigt.

Er enthält wichtige Informationen wie Autoren, Erscheinungsjahr oder doi, die aufgrund starker Qualitätsunterschiede in den Daten nicht standardmäßig angezeigt werden.

Da die dort angezeigten Daten nicht formatiert sind lohnt es sich bei falscher Formatierung des angezeigten Titels oder Abstracts stattdessen in das ausklappbare JSON zu schauen.

Der BibTeX Knopf kopiert alle zu einem Eintrag bekannten Daten als BibTeX in die Zwischenablage.

Die durchsuchten Daten stammen aus der rohen JSON.

Aufgrund der starken Qualitätsunterschiede der Daten wird geraten, das BibTeX bei Verwendung gründlich zu prüfen. 

Die Datenquelle ermöglicht eine generelle Einordnung eines Eintrages in ein Fachgebiet.

Z.B. PMC (PubMed Central) beinhaltet hauptsächlich Forschung aus der Medizin, während PhilPapers primär philosophische Daten umfasst.

Außerdem ist die Quelle eine klickbare URL und führt, wie der Titel der Einträge, direkt zum frei verfügbaren Volltext.

Listen sind eindimensional und verstecken Zusammenhänge. Eine Karte offenbart Muster, die in einer Textliste untergehen würden, wie dichte Cluster oder isolierte Ausreißer... und all das auf nur einen Blick.

Die Karte fungiert als Atlas des Wissens. Farbige Cluster repräsentieren thematisch verwandte Gebiete, Leerräume zeigen fehlende inhaltliche Überlappung. Dicht gedrängte Punkte weisen auf ein gut erforschtes Feld hin, während verstreute Punkte auf interdisziplinäre Verbindungen hindeuten.

Über den Wolken-Knopf kann die aktuelle Kartenansicht genau so, wie sie angezeigt wird, als hochauflösendes PNG-Bild exportiert werden.

Die generierten Bilder stehen unter der CC BY-NC-SA 4.0 Lizenz zur freien Verfügung. Sie dürfen für nicht-kommerzielle Zwecke verwendet werden, sofern der Ideenatlas als Quelle genannt wird und die Weitergabe unter denselben Bedingungen erfolgt.

Die Navigation erfolgt intuitiv per Mausrad oder den +/- Tasten zum Zoomen sowie Klicken und Ziehen zum Verschieben. Um mit der Karte zu interagieren, muss sie aktiv sein, das heißt, sie braucht die blaue Umrandung. Man aktiviert sie durch einmaliges Klicken auf die Karte.

Dieser Schalter blendet das Fadenkreuz ein, welches die exakte Position deiner Eingabe im 2D-Wissensuniversum markiert.

Es dient primär zur Orientierung: Wo befindet sich die Idee? Durch das Zusammenspiel mit den anderen Visualisierungsebenen lassen sich jedoch weitere Zusammenhänge schlussfolgern.

Dieser Schalter hebt die relevanten Themengebiete farbig hervor.

Durch den hohen Kontrast kann direkt erkannt werden, wo sich die Themengebiete befinden, wie groß (spezifisch) sie sind und wie sie in Verbindung zueinander stehen.

Er schaltet die farbigen Umrisse der aktiven Themengebiete ein und aus.

Dies hilft, die Grenzen von Themengebieten visuell besser abzugrenzen, besonders auf Karten mit vielen überlappenden Farben. Es erinnert an Höhenlinien auf einer Landkarte und macht die Struktur besser greifbar.

Dieser Schalter blendet die Namen und Umrisse der übergeordneten, großen Themengebiete ein.

Man kann es sich vorstellen wie das Einblenden der Kontinente auf einer Weltkarte, um eine grobe Orientierung im Vektorraum zu bekommen.

Er zeigt die Namen der Themengebiete auf der Karte an.

Das ist nützlich, um schnell die genauen Bezeichnungen der Gebiete zu erfassen.

Vor allem bei kleinen, eng beieinanderliegenden Gebieten kann dies jedoch störend und unübersichtlich sein, deswegen ist er standardmäßig deaktiviert. Kann man ein Themengebiet jedoch nicht auf einen Blick finden, da es zu klein oder unscheinbar ist, lohnt es sich, die Labels kurz zu aktivieren, da sie stark hervorstechen.

Er markiert die Positionen der gefundenen wissenschaftlichen Artikel (die in der Ergebnisliste unten erscheinen) als kleine, interaktive Punkte direkt auf der Karte.

So ist auf einen Blick ersichtlich, wo sich die konkreten Treffer befinden. Ihre Positionen lassen direkt mehrere Schlüsse zu:

Der dichte Fleck: Liegen alle Ergebnisse eng beieinander? Dann ist die Idee fest in einem etablierten Feld verortet.

Die Streuung: Verteilen sich die Ergebnisse über die ganze Karte? Das deutet auf einen interdisziplinären Ansatz hin, der verschiedene 'Wissenskontinente' verbindet.

Der Ausreißer: Ein einzelner Nachbar ist extrem weit von allem anderen entfernt? Hier könnte eine interdisziplinäre Querverbindung vorliegen, die es wert ist, genauer untersucht zu werden.

Und in Verbindung mit dem Fadenkreuz: In der Regel sollten die Ergebnisse des 'Deine Idee'-Tabs direkt beim Fadenkreuz liegen. Sind sie jedoch weit von ihm entfernt, kann das darauf hindeuten, dass sich in der Datenbank keine passenden Ergebnisse befinden. In diesem Fall kann es Sinn ergeben, die Recherche auf andere Plattformen auszuweiten. Es lohnt sich in diesem spezifischen Fall jedoch besonders, die Ergebnisse genau zu studieren, da sie neue Erkenntnisse und Facetten zur Suche liefern können.

Der Ideenatlas ist kein einfacher ChatGPT-Wrapper oder RAG. Zwischen Datensammeln und der fertigen Seite passieren ein paar Schritte zur Datenaufbereitung.

Sind die Rohdaten gesammelt und gesäubert, werden sie mithilfe eines Sentence Embedders in einen Vektor umgewandelt (Titel + Abstract -> Vektor) und in eine Vektordatenbank geschrieben.

Ist dies beendet, wird ein UMAP-Modell erstellt, um die Vektoren von 1024 auf eine geringere Dimension (10) zu reduzieren. Man kann sich diesen Prozess wie das Schießen eines Fotos vorstellen: die Kamera verwandelt die 3D-Welt in ein 2D-Bild. So können wir im Folgenden den Fluch der Dimensionalität umgehen.

Nun wird geclustert. Rekursiv werden HDBSCAN-Modelle auf Basis der niedrigdimensionalen Vektoren erstellt. Zunächst wird der gesamte Vektorraum geclustert. Anschließend werden die gefundenen Cluster geclustert. Es ist als würden wir im ersten Schritt Kontinente auf der Landkarte einzeichnen, dann Länder, Bundesländer, Städte und Stadtteile.

Im letzten Schritt werden die Cluster für die spätere Nutzung aufbereitet. Zunächst werden die Cluster-Zentroiden in Originaldimension berechnet und in eine neue Vektordatenbank geschrieben. Dann werden für alle Cluster Namen und Beschreibungen generiert. Dabei wird sich nicht einfach nur auf ein LLM verlassen: Es bekommt alle wichtigen Informationen wie TF-IDF-Keywords, Clustergröße, Cluster-Hierarchie, die Keywords der umherliegenden Cluster und aussagekräftige Titel + Abstracts von Papern aus dem Cluster.

Zuletzt wird das wohl Wichtigste generiert: Die Karte des Atlas. Mit UMAP eine 2D-Abbildung des Vektorraums zu generieren ist ein No-Brainer. Um sie besser navigierbar zu machen werden die Cluster-Outlines generiert. Um das rechentechnisch möglich und visuell ansprechend zu machen, werden konvexe Hüllen um eine mit DBSCAN entrauschte zufällige Auswahl an 2D-Vektoren eines Clusters gespannt.

Bei jeder Nutzer-Anfrage werden nun all diese Schritte auf den Text des Nutzers angewandt.

Die Ideenatlas Datenbank beruht auf Metadaten aus etablierten Open-Access-Repositories wie beispielsweise arXiv, PubMed Central oder RePEc.

Die Datenbank und die Datenverarbeitungsalgorithmen werden in regelmäßigen Abständen aktualisiert. Da in den letzten Monaten jedoch das Frontend im Vordergrund stand und ich mich neu für das bwUniCluster 3.0 bewerben muss, ist der derzeitige Stand der Datenbasis August/September 2025.

Eingaben werden temporär verarbeitet, um die Vektoranalyse durchzuführen. Eine dauerhafte Speicherung auf dem Server findet nicht statt. Hochgeladene Dateien werden nach Abschluss der Analyse sofort gelöscht.

Nein. Für die Textoptimierung genutzte externe APIs unterliegen strengen Datenschutzvorgaben, die ein Training mit Nutzerdaten ausschließen. Die eigentliche Vektorsuche erfolgt lokal auf dem Server.

Ja, Datensouveränität ist gewährleistet. Ergebnisse lassen sich als interaktives HTML zur Offline-Nutzung, als JSON-Rohdaten zur Weiterverarbeitung, oder als Markdown Datei für KI-Sprachmodelle exportieren.

Der Verlauf wird ausschließlich lokal im Browser (IndexedDB) gespeichert und verlässt das Gerät nicht. Ein Löschen der Browserdaten entfernt auch den Verlauf.