Digital Beat KI Power Hour | Dein kostenfreies Live Event für schnelle Visuals mit KI | 11. Juni 10 - 12 Uhr | kostenfrei anmelden

KI-Agenten

OpenAI präsentiert BrowseComp: Die KI-Browsing-Agenten​

OpenAI hat BrowseComp eingeführt, einen neuen Benchmark, der die Fähigkeit von KI-Agenten testet, komplexe und schwer auffindbare Informationen im Internet zu recherchieren. Mit 1.266 anspruchsvollen Fragen zielt BrowseComp darauf ab, die Ausdauer, Kreativität und strategische Suchkompetenz von KI-Systemen zu bewerten.

OpenAI hat mit BrowseComp einen neuen Benchmark vorgestellt, der die Fähigkeiten von KI-Agenten bei der Recherche komplexer und schwer auffindbarer Informationen im Internet testet. Während bestehende Benchmarks wie SimpleQA bereits von aktuellen Modellen gemeistert werden, setzt BrowseComp neue Maßstäbe in Bezug auf Schwierigkeit und Relevanz für reale Anwendungen.​

Was ist BrowseComp?

BrowseComp, eine Abkürzung für „Browsing Competition“, besteht aus 1.266 sorgfältig konzipierten Fragen, die darauf abzielen, die Ausdauer und Kreativität von KI-Agenten bei der Web-Recherche zu testen. Jede Frage ist so gestaltet, dass sie nicht durch einfache Suchanfragen beantwortet werden kann, sondern eine tiefgehende und strategische Recherche erfordert. Die Antworten sind kurz und eindeutig, was eine einfache Verifizierung ermöglicht. ​

Methodik: Schwierige Fragen, einfache Verifizierung

Die Fragen in BrowseComp wurden von menschlichen Trainern erstellt, die sicherstellten, dass die Antworten nicht leicht über Suchmaschinen auffindbar sind. Dazu wurden mehrere Kriterien angewendet:

  • Die Fragen sollten nicht von bestehenden Modellen wie GPT-4o oder OpenAI o1 beantwortet werden können.​
  • Die Antworten sollten nicht auf den ersten Seiten von Suchmaschinenergebnissen erscheinen.​
  • Die Fragen sollten so gestaltet sein, dass sie für Menschen innerhalb eines bestimmten Zeitrahmens schwer zu beantworten sind.​

Diese Methodik stellt sicher, dass BrowseComp eine echte Herausforderung für KI-Agenten darstellt und ihre Fähigkeit testet, komplexe Informationen zu recherchieren und zu verifizieren. ​

Leistung aktueller Modelle

Die Ergebnisse von BrowseComp zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die gestellten Aufgaben zu bewältigen:​

  • GPT-4o ohne Browsing-Funktion erreichte eine Genauigkeit von 0,6 %.​
  • GPT-4o mit Browsing-Funktion erzielte 1,9 %.​
  • OpenAI o1 ohne Browsing-Funktion kam auf 9,9 %.​
  • Ein speziell trainiertes Modell namens Deep Research erreichte 51,5 %.​

Fazit

Mit BrowseComp hat OpenAI einen wichtigen Schritt unternommen, um die Fähigkeiten von KI-Agenten bei der Web-Recherche zu bewerten und zu verbessern. Der Benchmark stellt eine anspruchsvolle Herausforderung dar, die über einfache Informationsabfragen hinausgeht und die Entwicklung von KI-Systemen fördert, die in der Lage sind, komplexe und schwer auffindbare Informationen effektiv zu recherchieren und zu verifizieren.​

Jetzt kostenlos zu den KI Days anmelden und die neusten KI-Workflows entdecken!

Fragst du dich noch, wie du Künstliche Intelligenz sinnvoll in deinen Arbeitsalltag integrieren kannst – und welche KI-Tools wirklich einen Unterschied für dich machen? Dann sichere dir jetzt deinen Zugang zu den KI Days am 20. & 21. Mai 2025 – dem kostenlosen Live-Event von Digital Beat. Lerne von KI-Experten, wie du mit den neuesten KI-Workflows effizienter, smarter und stressfreier arbeitest – und gleichzeitig deine Erfolge maximierst.

KI DAYS
Dein Einstieg in effiziente Workflows mit KI

Für smarte Abläufe & weniger Stress im Arbeitsalltag
20. & 21. Mai 2025 | Live | Online

Häufige Fragen (FAQ) zum Thema BrowseComp

Was ist das Ziel von BrowseComp?

BrowseComp zielt darauf ab, die Fähigkeit von KI-Agenten zu bewerten, komplexe und schwer auffindbare Informationen im Internet zu recherchieren und zu verifizieren.​

Wie unterscheidet sich BrowseComp von anderen Benchmarks?

Im Gegensatz zu anderen Benchmarks konzentriert sich BrowseComp auf Fragen, die nicht durch einfache Suchanfragen beantwortet werden können, sondern eine tiefgehende und strategische Recherche erfordern.

Welche Modelle wurden mit BrowseComp getestet?

Unter anderem wurden GPT-4o (mit und ohne Browsing-Funktion), OpenAI o1 und ein speziell trainiertes Modell namens Deep Research getestet.

Artikel bewerten
Wie gefällt dir dieser Artikel?
0 aus 0 Bewertungen
MEHR ZUM THEMA
OpenAI Academy: Kostenloses KI-Bildungsangebot für alle​

OpenAI Academy: Kostenloses KI-Bildungsangebot für alle​

OpenAI hat die OpenAI Academy ins Leben gerufen, um weltweit kostenlose Bildungsressourcen im Bereich Künstliche Intelligenz bereitzustellen.​

Openai Sora jetzt in der EU verfügbar

Openai Sora jetzt in der EU verfügbar

OpenAI hat sein Video-Generierungstool OpenAI Sora nun auch in der EU eingeführt. Erfahre, wie dieses Tool die Videoproduktion verändert.

ChatGPT 4.5: OpenAIs neues KI-Modell

ChatGPT 4.5: OpenAIs neues KI-Modell

OpenAI hat GPT-4.5 veröffentlicht. Das neue Modell bietet eine natürlichere Gesprächsführung, verbesserte Präzision und spannende Neuerungen für den KI-Bereich.

Befolge diese 10 Schritte bei der Gründung deiner KI-Agentur

Befolge diese 10 Schritte bei der Gründung deiner KI-Agentur

Unternehmen suchen händeringend nach Experten, die ihnen helfen, KI effizient einzusetzen. Doch wie startet man eine eigene KI-Agentur? Dieser Artikel zeigt dir 10 essenzielle Schritte, um dein Business aufzubauen, erste Kunden zu gewinnen und profitabel zu skalieren.

Google Agentspace: Was ist ein KI-Agent?

Google Agentspace: Was ist ein KI-Agent?

KI-Agenten optimieren Geschäftsprozesse und sparen Zeit. Doch was genau ist ein KI-Agent und wie kann man den Google Agentspace dafür nutzen?

Arbeitsalltag mit KI-Agenten erleichtern

Arbeitsalltag mit KI-Agenten erleichtern

Entdecke, wie KI-Agenten deinen Arbeitsalltag revolutionieren und dir mehr Zeit für strategische Aufgaben verschaffen.

Cybersecurity: Wie KIs zum Datenschutz beitragen

Cybersecurity: Wie KIs zum Datenschutz beitragen

Hier erfährst du, wie du KI nutzen kannst, um deine Prozesse noch sicherer zu machen und Cyberangriffe zu vermeiden!

DU willst deine KI-Skills aufs nächste Level heben?

WIR machen dich bereit für die Revolution
KÜNSTLICHE INTELLIGENZ!

Exklusive Einblicke
Newsletter für KI-Insider
Melde dich jetzt an und werde zum Gewinner der KI-Revolution

Ja, ich möchte den Newsletter. Die Einwilligung kann jederzeit im Newsletter widerrufen werden. Datenschutzerklärung.

Über den Autor

Autorenprofil: Emerode Kimonawoko

Emerode Kimonawoko

Emerode ist seit November 2024 als Junior Projektmanager Content bei Gründer.de tätig und bereichert die Redaktion mit neuen Perspektiven. Nach seinem (B.A.) in Politikwissenschaft an der Philipps-Universität Marburg hat er seine Leidenschaft für redaktionelles Arbeiten mit in die Räumlichkeiten von Gründer.de gebracht. Mit einem besonderen Gespür für aktuelle Trends und relevante Themen liefert er wertvolle Insights in die Welt der Künstlichen Intelligenz, des Online-Marketings und praxisnaher Business-Tipps. Der Gründer.de-Community bietet er fundierte Einblicke und praxisrelevante Informationen, stets mit dem Ziel, Leserinnen und Leser zu unterstützen, ihre unternehmerischen und beruflichen Ziele zu erreichen.

Hast du noch Fragen?

Du hast eine Frage oder eine Meinung zum Artikel? Teile sie mit uns!

KI Days
Platz sichern
Gründer:in?

Zu unseren Angeboten

Exklusive Events
Contra
  • Die KI Marketing Konferenz
  • 24. & 25. Juni 2025
  • Live in Düsseldorf

Ticket sichern
KI Days Kostenlos anmelden

Sitemap

schliessen
KI DAYS
Dein Online Event
Für Effiziente Workflows / Smarte Strategien / bessere Ergebnisse mit KI
20. & 21. Mai 2025 | Live | Online