[OC] Ein statistiklastiges LLM-Ranking-Projekt erstellt – Gedanken dazu?

Hallo Leute! Ich versuche, Data-Science-Projekte aufzubauen, um mehr Erfahrung zu sammeln, also habe ich ein persönliches Projekt erstellt, in dem LLM-Rankings mithilfe tatsächlicher statistischer Schlussfolgerungen analysiert werden (CIs, Bootstrap, FDR, Leistungsanalyse, Bradley-Terry, Elo).

Daten: Open LLM Leaderboard v2; LMSYS Chatbot Arena-Gespräche; MMLU; ARC (Einfach + Herausforderung); HellaSwag.

Ich würde mich über Feedback zu Methodik, Klarheit oder allem freuen, was ich Ihrer Meinung nach verbessern sollte.

Repo: Github-Repository

Von Inevitable_Target816

View 1 Comment

1 Kommentar

Inevitable_Target816 on 10.04.2026 1:58 p.m.

Source: Open LLM Leaderboard v2; LMSYS Chatbot Arena Conversations; MMLU; ARC (Easy + Challenge); HellaSwag

Tool: Python (pandas, numpy, scipy, statsmodels, scikit-learn, xgboost) with matplotlib, seaborn, plotly for the visuals

Du musst angemeldet sein, um einen Kommentar abzugeben.