LLMs brillieren im Spiel «Errate das nächste Wort». Sie sind absolut überlegen durch algorithmische Mustererkennung. Aber wie gut sind sie wirklich im Vergleich zum Menschen und wie sieht es mit ihrer Sozialkompetenz aus?
Let s dive in…
Was bedeutet es, wenn AI die menschliche Intelligenz übertrifft, und wie kann dies gemessen werden? Menschliche AI, oft als AGI (Artificial General Intelligence) oder ASI (Artificial Super Intelligence) bezeichnet, wurde traditionell anhand des Turing-Tests definiert. Dieser Test, vorgeschlagen von dem englischen Mathematiker und Computerwissenschaftler Alan Turing im Jahr 1950, zielt darauf ab, festzustellen, ob eine Maschine Intelligenz auf einem menschenähnlichen Niveau zeigen kann. Der Test beinhaltet eine Situation, in der ein menschlicher Richter entscheiden muss, ob er mit einem Menschen oder einer Maschine interagiert, ohne dies im Vorfeld zu wissen. Wird die Maschine nicht vom Menschen unterschieden, gilt sie als bestanden.
In den vergangenen 12 Monaten dürfte der Turing-Test inoffiziell bestanden worden sein, dennoch behauptet niemand, dass AGI oder ASI bereits erreicht worden sind. Es bedarf also differenzierterer Messmethoden.
Mit der Entwicklung von Large Language Models (LLMs) wie GPT-3 werden neue Tests verwendet, um deren Leistungsfähigkeit zu messen. Dabei ist es wichtig, dass die Testfragen nicht bereits im Trainingsmaterial der LLMs enthalten waren.
Dr. Alan D. Thompson hat 2020 seine Position als Vorsitzender der «Gifted Families» bei Mensa International aufgegeben, nachdem er die Fähigkeiten von GPT-3 im Vergleich zu seinen hochbegabten Klienten gesehen hatte. Er ist ein Beispiel für jemanden, der sich intensiv mit diesem Thema beschäftigt hat.
Weitere Informationen zu seiner Arbeit und seinen Beobachtungen findest du hier:Â https://lifearchitect.ai/iq-testing-ai/
Insgesamt zeigt sich, dass die Messung von AI-Intelligenz ein komplexes und sich ständig weiterentwickelndes Feld ist, das über den traditionellen Turing-Test hinausgeht.
Hier geht es zum gesamten Artikel: LLM Benchmarks: AI & LLMs entmystifiziert für Entscheidungsträger
Die BitHawk AG beschäftigt rund 230 Mitarbeitende. Der Hauptsitz von BitHawk ist in Sursee, weitere Standorte befinden sich in Basel und Winterthur.
Die Kernkompetenzen der BitHawk liegen in den Bereichen Consulting, Engineering und Operations von IT-Infrastrukturen sowie in IT- und Enterprise Service Management Lösungen. Das Lösungsportfolio umfasst die Themen Netzwerk, Unified Communications und Collaboration, Unified Computing, Workplace und Public- Hybrid und Privat Clouds . Speziallösungen wie IT- Security und Digital Signage Solution runden das Portfolio ab. Qualifizierte Spezialisten beraten Kunden im Hinblick auf eine langfristig sinnvolle und anpassungsfähige IT-Umgebung. Ein umfassender Service Desk, ein eigenes Rechenzentrum und Repair Center garantieren höchste Verfügbarkeit und schnelle Reaktionszeiten.
verwandte Themen:
Mit Wörtern rechnen: AI&LLMs für Entscheidungsträger
Grosse Sprachmodelle lernen aus «Büchern», indem sie Texte in kleine Einheiten, sogenannte Tokens, zerlegen. Diese Modelle achten genau darauf, was links und rechts von jedem Wort steht und erstellen für jedes Wort riesige Vektoren. Diese Vektoren enthalten alle möglichen Wahrscheinlichkeiten der Wörter, die in der Nachbarschaft auftauchen können, wodurch die Modelle das Zusammenspiel der Wörter «verstehen». Let s dive in... Ohne zu sehr ins ...
Welt der Token: AI&LLMs für Entscheidungsträger
Neuronale Netzwerke, besonders grosse Sprachmodelle, sind aus Parametern aufgebaut und «nähren» sich von Tokens. Die Menge dieser Tokens zeigt, wie viele Informationen – vergleichbar mit Büchern – die AI «gelesen» hat. Doch die Tokens finden nicht nur hier Verwendung; sie spielen auch in anderen Bereichen eine wichtige Rolle als Masseinheit. Let s dive in... In unserem letzten Blogbeitrag hast du einen ersten Einblick in die Welt der Parameter bei AI...
RAG Modelle: AI&LLMs für Entscheidungsträger
Grosse Sprachmodelle finden vielfältige Anwendungen. Das RAG-Modell stellt dabei nicht ein neues AI-Modell dar, sondern eine Methode, wie man ein grosses Sprachmodell geschickt in eine Gesamtarchitektur integriert. Microsoft M365 Copilot ist ein Beispiel, das auf einem solchen RAG-Modell aufbaut. Let s dive in... Das RAG-Modell (Retrieval-Augmented Generation) in der AI ist ein hybrider Ansatz, der die Leistungsfähigkeit grosser Sprachmodelle mit der Fähigkeit kombiniert, Informat...
Nächster Fortschritt bei Business Intelligence Dashboards: Entscheidungsträger erhalten umsetzbare Daten in Echtzeit mit Arrias fortschrittlicher Natural Language Generation
Entscheidungsträger kämpfen darum, einen stetig wachsenden, endlosen Datenstrom sinnvoll zu nutzen, und aus diesem Grund gehören im Jahr 2019 fortschrittlichste Dashboards, automatisiertes Berichtswesen und erweiterte Analysefunktionen zu den besten strategischen Maßnahmen für Organisationen. Der zentrale technologische Durchbruch, der diese Maßnahmen flankiert, ist die Ergänzung durch Natural Language Generation (NLG) zum derzeitigen Dashboard-Angebot für Business Intelligence […]...
DocuPortal entmystifiziert ECM auf der DMS 2008
Bremen – DocuPortal (Stand E 083) präsentiert unter dem Motto „Alles. Einfach. Schnell. Finden!“ auf der DMS EXPO seine schnell einsetzbaren Produkte. Das DocuPortal ECM ermöglicht das zentrale Speichern, Strukturieren, Ansehen, Bearbeiten, Kontrollieren, Weiterleiten, Zusammenarbeiten und Archivieren. Als Neuheit zeigt der ECM-Spezialist eine erheblich erweiterte Windows Dateisystemintegration, die einen direkten Zugriff auf Dateien und Informationen über gewohnte Oberfläche...