
Hallo Leute! Ich versuche, Data-Science-Projekte aufzubauen, um mehr Erfahrung zu sammeln, also habe ich ein persönliches Projekt erstellt, in dem LLM-Rankings mithilfe tatsächlicher statistischer Schlussfolgerungen analysiert werden (CIs, Bootstrap, FDR, Leistungsanalyse, Bradley-Terry, Elo).
Daten: Open LLM Leaderboard v2; LMSYS Chatbot Arena-Gespräche; MMLU; ARC (Einfach + Herausforderung); HellaSwag.
Ich würde mich über Feedback zu Methodik, Klarheit oder allem freuen, was ich Ihrer Meinung nach verbessern sollte.
Repo: Github-Repository
Von Inevitable_Target816
1 Kommentar
Source: Open LLM Leaderboard v2; LMSYS Chatbot Arena Conversations; MMLU; ARC (Easy + Challenge); HellaSwag
Tool: Python (pandas, numpy, scipy, statsmodels, scikit-learn, xgboost) with matplotlib, seaborn, plotly for the visuals