Datenquellen: GitHub- und PyPI-Daten im Zusammenhang mit dieses Projekt. Verwendete Tools: GitHub CLI, PyPI API, Python, Gource.

    Die vollständige Visualisierung hier.

    Ich arbeite an einem Open-Source-Projekt, das eine große Anzahl von KI-Bewertungen hostet ("bewertet"). Bis heute gibt es in diesem Projekt mehr als 120 Evaluierungen, die ein Framework verwenden, das von einigen der gleichen Personen geschrieben wurde, die dahinter stehen Abschlag.

    Eine Bewertung ist lediglich eine Möglichkeit, die Fähigkeiten/das Verhalten einer KI in einer bestimmten Dimension zu charakterisieren. Sie ermöglicht es uns, Zahlen zuzuweisen, damit wir verschiedene KI-Modelle einstufen und vergleichen können und uns auch bei der Quantifizierung helfen können "wie schnell" Neue Modelle verbessern sich in bestimmten Dimensionen.

    Beispiele für Merkmale, deren Bewertung uns bei der Quantifizierung helfen kann:

    1. Wie ehrlich ist das Modell?
    2. Wie gut bei Mathe-Wettbewerbsfragen?
    3. Wie sind ihre Chemiekenntnisse?
    4. Wie steht es um ihr medizinisches Wissen?

    Ich habe ein Dashboard erstellt, das zeigt, wie die Anzahl der Evaluierungen im Projekt im Laufe der Zeit zugenommen hat (sowie verschiedene andere Metriken unter Verwendung von Daten von Github und PyPI, wie zum Beispiel die, die Sie im Bild sehen).

    Spoiler: Was das Bild im Beitrag betrifft, so blieben die Downloads 12 Monate lang stagnieren, bis wir mit der Veröffentlichung auf PyPI in einem regelmäßigeren Veröffentlichungsrhythmus begannen! Wenn Sie sich das Github-Stars-Diagramm ansehen, können Sie ein lineares Wachstum erkennen, sodass die Explosion der PyPI-Downloads praktisch nur eine aufgestaute Nachfrage war.

    Ich habe auch verwendet Quelle. Ich habe zuvor ein cooles Video gesehen, in dem Gource auf dem Linux-Kernel verwendet wurde, und dachte, es sei eine großartige Möglichkeit, die Zusammenarbeit zu zeigen, die in Open-Source-Projekten stattfindet.

    (Wenn Sie bis hierhin gelesen haben, Hier ist der Link nochmal zur eigentlichen Visualisierung! Ich hoffe, einige Leute finden es cool)

    Von Churrrrmokopuna2540

    Share.

    1 Kommentar

    1. Plus_Reveal859 on

      So this is the number of evals you are testing on for a single project? Why the big increase? (Less reliable evals, more needs you want to evaluate etc.)

      Also, do you share intto [EveryEvalEver](https://github.com/evaleval/every_eval_ever) repository (inspect converter already supported)? We would love for others to see those numbers…

    Leave A Reply