Hallo Leute! Ich versuche, Data-Science-Projekte aufzubauen, um mehr Erfahrung zu sammeln, also habe ich ein persönliches Projekt erstellt, in dem LLM-Rankings mithilfe tatsächlicher statistischer Schlussfolgerungen analysiert werden (CIs, Bootstrap, FDR, Leistungsanalyse, Bradley-Terry, Elo).

    Daten: Open LLM Leaderboard v2; LMSYS Chatbot Arena-Gespräche; MMLU; ARC (Einfach + Herausforderung); HellaSwag.

    Ich würde mich über Feedback zu Methodik, Klarheit oder allem freuen, was ich Ihrer Meinung nach verbessern sollte.

    Repo: Github-Repository

    Von Inevitable_Target816

    Share.

    1 Kommentar

    1. Inevitable_Target816 on

      Source: Open LLM Leaderboard v2; LMSYS Chatbot Arena Conversations; MMLU; ARC (Easy + Challenge); HellaSwag

      Tool: Python (pandas, numpy, scipy, statsmodels, scikit-learn, xgboost) with matplotlib, seaborn, plotly for the visuals

    Leave A Reply