Artwork

Kandungan disediakan oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Semua kandungan podcast termasuk episod, grafik dan perihalan podcast dimuat naik dan disediakan terus oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon atau rakan kongsi platform podcast mereka. Jika anda percaya seseorang menggunakan karya berhak cipta anda tanpa kebenaran anda, anda boleh mengikuti proses yang digariskan di sini https://ms.player.fm/legal.
Player FM - Aplikasi Podcast
Pergi ke luar talian dengan aplikasi Player FM !

Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?

36:40
 
Kongsi
 

Fetch error

Hmmm there seems to be a problem fetching this series right now. Last successful fetch was on May 18, 2024 18:11 (15d ago)

What now? This series will be checked again in the next day. If you believe it should be working, please verify the publisher's feed link below is valid and includes actual episode links. You can contact support to request the feed be immediately fetched.

Manage episode 416428792 series 2911119
Kandungan disediakan oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Semua kandungan podcast termasuk episod, grafik dan perihalan podcast dimuat naik dan disediakan terus oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon atau rakan kongsi platform podcast mereka. Jika anda percaya seseorang menggunakan karya berhak cipta anda tanpa kebenaran anda, anda boleh mengikuti proses yang digariskan di sini https://ms.player.fm/legal.

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the Show.

  continue reading

175 episod

Artwork
iconKongsi
 

Fetch error

Hmmm there seems to be a problem fetching this series right now. Last successful fetch was on May 18, 2024 18:11 (15d ago)

What now? This series will be checked again in the next day. If you believe it should be working, please verify the publisher's feed link below is valid and includes actual episode links. You can contact support to request the feed be immediately fetched.

Manage episode 416428792 series 2911119
Kandungan disediakan oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon. Semua kandungan podcast termasuk episod, grafik dan perihalan podcast dimuat naik dan disediakan terus oleh Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon atau rakan kongsi platform podcast mereka. Jika anda percaya seseorang menggunakan karya berhak cipta anda tanpa kebenaran anda, anda boleh mengikuti proses yang digariskan di sini https://ms.player.fm/legal.

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.
Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the Show.

  continue reading

175 episod

Semua episod

×
 
Loading …

Selamat datang ke Player FM

Player FM mengimbas laman-laman web bagi podcast berkualiti tinggi untuk anda nikmati sekarang. Ia merupakan aplikasi podcast terbaik dan berfungsi untuk Android, iPhone, dan web. Daftar untuk melaraskan langganan merentasi peranti.

 

Panduan Rujukan Pantas

Podcast Teratas