Abstract
Original language | English |
---|---|
Publication status | Published - 24 Jan 2025 |
Keywords
- cs.LG
- cs.AI
- cs.CL
Fingerprint
Dive into the research topics of 'Humanity's Last Exam'. Together they form a unique fingerprint.Cite this
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver
}
2025.
Research output: Preprint/Working paper › Preprint
TY - UNPB
T1 - Humanity's Last Exam
AU - Phan, Long
AU - Gatti, Alice
AU - Han, Ziwen
AU - Li, Nathaniel
AU - Hu, Josephina
AU - Zhang, Hugh
AU - Shaaban, Mohamed
AU - Ling, John
AU - Shi, Sean
AU - Choi, Michael
AU - Agrawal, Anish
AU - Chopra, Arnav
AU - Khoja, Adam
AU - Kim, Ryan
AU - Ren, Richard
AU - Hausenloy, Jason
AU - Zhang, Oliver
AU - Mazeika, Mantas
AU - Anderson, Daron
AU - Nguyen, Tung
AU - Shah, Imad Ali
AU - Stokes, Alun Cennyth
AU - Mahmood, Mobeen
AU - Feng, Fiona
AU - Feng, Steven Y.
AU - Zhao, Haoran
AU - Yu, Michael
AU - Gangal, Varun
AU - Zou, Chelsea
AU - Wang, Zihan
AU - Lee, Jaeho
AU - Doroshenko, Mikhail
AU - Wang, Jessica P.
AU - Kumar, Pawan
AU - Pokutnyi, Oleksandr
AU - Iskra, Oleg
AU - Gerbicz, Robert
AU - Popov, Serguei
AU - Levin, John-Clark
AU - Kazakov, Mstyslav
AU - Schmitt, Johannes
AU - Galgon, Geoff
AU - Sanchez, Alvaro
AU - Lee, Yongki
AU - Yeadon, Will
AU - Sauers, Scott
AU - Roth, Marc
AU - Agu, Chidozie
AU - Riis, Søren
AU - Giska, Fabian
AU - Utpala, Saiteja
AU - Cheatom, Antrell
AU - Giboney, Zachary
AU - Goshu, Gashaw M.
AU - Xavier, Joan of Arc
AU - Crowson, Sarah-Jane
AU - Naiya, Mohinder Maheshbhai
AU - Burns, Noah
AU - Finke, Lennart
AU - Cheng, Zerui
AU - Park, Hyunwoo
AU - Fournier-Facio, Francesco
AU - Wydallis, John
AU - Wydallis, John B.
AU - Nandor, Mark
AU - Singh, Ankit
AU - Gehrunger, Tim
AU - Cai, Jiaqi
AU - McCarty, Ben
AU - Duclosel, Darling
AU - Menshawy, Ahmed
AU - Nam, Jungbae
AU - Zampese, Jennifer
AU - Hoerr, Ryan G.
AU - Bacho, Aras
AU - Jin, Jun
AU - Loume, Gautier Abou
AU - Galal, Abdallah
AU - Cao, Hangrui
AU - Garretson, Alexis C
AU - Sileo, Damien
AU - Ren, Qiuyu
AU - Cojoc, Doru
AU - Arkhipov, Pavel
AU - Qazi, Usman
AU - Li, Lianghui
AU - Motwani, Sumeet
AU - de Witt, Christian Schroeder
AU - Kopylov, Alexei
AU - Taylor, Edwin
AU - Veith, Johannes
AU - Singer, Eric
AU - Hartman, Taylor D.
AU - Rissone, Paolo
AU - Jin, Jaehyeok
AU - Shi, Jack Wei Lun
AU - Willcocks, Chris G.
AU - Robinson, Joshua
AU - Mikov, Aleksandar
AU - Prabhu, Ameya
AU - Tang, Longke
AU - Alapont, Xavier
AU - Uro, Justine Leon
AU - Zhou, Kevin
AU - Santos, Emily de Oliveira
AU - Maksimov, Andrey Pupasov
AU - Vendrow, Edward
AU - Zenitani, Kengo
AU - Guillod, Julien
AU - Siddh, Sheeshram
AU - Li, Yuqi
AU - Vendrow, Joshua
AU - Kuchkin, Vladyslav
AU - Ze-An, Ng
AU - Marion, Pierre
AU - Efremov, Denis
AU - Lynch, Jayson
AU - Liang, Kaiqu
AU - Gritsevskiy, Andrew
AU - Martinez, Dakotah
AU - Pageler, Ben
AU - Crispino, Nick
AU - Zvonkine, Dimitri
AU - Fraga, Natanael Wildner
AU - Soori, Saeed
AU - Press, Ori
AU - Tang, Henry
AU - Salazar, Julian
AU - Green, Sean R.
AU - Brüssel, Lina
AU - Twayana, Moon
AU - Dieuleveut, Aymeric
AU - Rogers, T. Ryan
AU - Zhang, Wenjin
AU - Jain, Yashaswini
AU - Li, Bikun
AU - Yang, Jinzhou
AU - Rao, Arun
AU - Loiseau, Gabriel
AU - Kalinin, Mikhail
AU - Lukas, Marco
AU - Manolescu, Ciprian
AU - Mishra, Subrata
AU - Kamdoum, Ariel Ghislain Kemogne
AU - Kreiman, Tobias
AU - Hogg, Tad
AU - Jin, Alvin
AU - Bosio, Carlo
AU - Sun, Gongbo
AU - Coppola, Brian P
AU - Tarver, Tim
AU - Heidinger, Haline
AU - Sayous, Rafael
AU - Ivanov, Stefan
AU - Cavanagh, Joseph M
AU - Shen, Jiawei
AU - Imperial, Joseph Marvin
AU - Schwaller, Philippe
AU - Senthilkuma, Shaipranesh
AU - Bran, Andres M
AU - Dehghan, Ali
AU - Algaba, Andres
AU - Verbeken, Brecht
AU - den Houte, Kelsey Van
AU - Sypt, Lynn Van Der
AU - Noever, David
AU - Schut, Lisa
AU - Sucholutsky, Ilia
AU - Zheltonozhskii, Evgenii
AU - Yuan, Qiaochu
AU - Lim, Derek
AU - Stanley, Richard
AU - Sivarajan, Shankar
AU - Yang, Tong
AU - Maar, John
AU - Wykowski, Julian
AU - Oller, Martí
AU - Sandlin, Jennifer
AU - Sahu, Anmol
AU - Hu, Yuzheng
AU - Fish, Sara
AU - Heydari, Nasser
AU - Apronti, Archimedes
AU - Rawal, Kaivalya
AU - Vilchis, Tobias Garcia
AU - Zu, Yuexuan
AU - Lackner, Martin
AU - Koppel, James
AU - Nguyen, Jeremy
AU - Antonenko, Daniil S.
AU - Chern, Steffi
AU - Zhao, Bingchen
AU - Arsene, Pierrot
AU - Goldfarb, Alan
AU - Ivanov, Sergey
AU - Poświata, Rafał
AU - Wang, Chenguang
AU - Li, Daofeng
AU - Crisostomi, Donato
AU - Achilleos, Andrea
AU - Myklebust, Benjamin
AU - Sen, Archan
AU - Perrella, David
AU - Kaparov, Nurdin
AU - Inlow, Mark H
AU - Krenek, Keith
AU - Zang, Allen
AU - Thornley, Elliott
AU - Orel, Daniil
AU - Poritski, Vladislav
AU - Ben-David, Shalev
AU - Berger, Zachary
AU - Whitfill, Parker
AU - Foster, Michael
AU - Munro, Daniel
AU - Ho, Linh
AU - Hava, Dan Bar
AU - Kuchkin, Aleksey
AU - Lauff, Robert
AU - Holmes, David
AU - Sommerhage, Frank
AU - Ardito, Cesare Giulio
AU - Moat, Richard
AU - Schneider, Keith
AU - Kazibwe, Zakayo
AU - Stambaugh, Nate
AU - Singh, Mukhwinder
AU - Magoulas, Ilias
AU - Clarke, Don
AU - Kim, Dae Hyun
AU - Dias, Felipe Meneguitti
AU - Elser, Veit
AU - Agarwal, Kanu Priya
AU - Vilchis, Victor Efren Guadarrama
AU - Klose, Immo
AU - Demian, Christoph
AU - Anantheswaran, Ujjwala
AU - Zweiger, Adam
AU - Albani, Guglielmo
AU - Li, Jeffery
AU - Daans, Nicolas
AU - Radionov, Maksim
AU - Rozhoň, Václav
AU - Ma, Ziqiao
AU - Stump, Christian
AU - Berkani, Mohammed
AU - Platnick, Jacob
AU - Nevirkovets, Volodymyr
AU - Basler, Luke
AU - Piccardo, Marco
AU - Jeanplong, Ferenc
AU - Cohen, Niv
AU - Singh, Virendra
AU - Tkadlec, Josef
AU - Rosu, Paul
AU - Padlewski, Piotr
AU - Barzowski, Stanislaw
AU - Montgomery, Kyle
AU - Menezes, Aline
AU - Patel, Arkil
AU - Wang, Zixuan
AU - Tucker-Foltz, Jamie
AU - Stade, Jack
AU - Goertzen, Tom
AU - Kazemi, Fereshteh
AU - Milbauer, Jeremiah
AU - Ambay, John Arnold
AU - Shukla, Abhishek
AU - Labrador, Yan Carlos Leyva
AU - He, Hao
AU - Zhang, Ling
AU - Givré, Alan
AU - Wolff, Hew
AU - Rossbach, Vivien
AU - Aziz, Muhammad Fayez
AU - Kaddar, Younesse
AU - Ängquist, Ivar
AU - Chen, Yanxu
AU - Zhang, Robin
AU - Pan, Jiayi
AU - Terpin, Antonio
AU - Muennighoff, Niklas
AU - Schoelkopf, Hailey
AU - Zheng, Eric
AU - Carmi, Avishy
AU - Jones, Adam
AU - Shah, Jainam
AU - Brown, Ethan D. L.
AU - Zhu, Kelin
AU - Bartolo, Max
AU - Wheeler, Richard
AU - Ho, Andrew
AU - Barkan, Shaul
AU - Wang, Jiaqi
AU - Stehberger, Martin
AU - Kretov, Egor
AU - Bradshaw, Peter
AU - Heimonen, JP
AU - Sridhar, Kaustubh
AU - Makarychev, Yury
AU - EL-Wasif, Zienab
AU - Zhang, Anji
AU - Pyda, Daniel
AU - Tam, Joanna
AU - Cunningham, David M.
AU - Goryachev, Vladimir
AU - Patramanis, Demosthenes
AU - Krause, Michael
AU - Redenti, Andrew
AU - Bugas, Daniel
AU - Aldous, David
AU - Lai, Jesyin
AU - Coleman, Shannon
AU - Bahaloo, Mohsen
AU - Bateman, Greg
AU - Xu, Jiangnan
AU - Lee, Sangwon
AU - Zhao, Sandy
AU - Tang, Ning
AU - Cohen, Michael K.
AU - Carroll, Micah
AU - Paradise, Orr
AU - Kirchner, Jan Hendrik
AU - Steinerberger, Stefan
AU - Ovchynnikov, Maksym
AU - Matos, Jason O.
AU - Shenoy, Adithya
AU - Junior, Benedito Alves de Oliveira
AU - Wang, Michael
AU - Aaron, Ashley
AU - Nie, Yuzhou
AU - Giordano, Paolo
AU - Petersen, Philipp
AU - Sztyber-Betley, Anna
AU - Shukla, Priti
AU - Faraboschi, Paolo
AU - Crozier, Jonathan
AU - Pinto, Antonella
AU - Verma, Shreyas
AU - Joshi, Prashant
AU - Meril, Eli
AU - Yong, Zheng-Xin
AU - Tee, Allison
AU - Andréoletti, Jérémy
AU - Weller, Orion
AU - Singhal, Raghav
AU - Zhang, Gang
AU - Ivanov, Alexander
AU - Khoury, Seri
AU - Gustafsson, Nils
AU - Mostaghimi, Hamid
AU - Thaman, Kunvar
AU - Chen, Qijia
AU - Khánh, Tran Quoc
AU - Loader, Jacob
AU - Cavalleri, Stefano
AU - Szlyk, Hannah
AU - Brown, Zachary
AU - Roberts, Jonathan
AU - Alley, William
AU - Sun, Kunyang
AU - Stendall, Ryan
AU - Lamparth, Max
AU - Reuel, Anka
AU - Wang, Ting
AU - Xu, Hanmeng
AU - Hernández-Cámara, Pablo
AU - Martin, Freddie
AU - Malishev, Dmitry
AU - Preu, Thomas
AU - Korbak, Tomek
AU - Abramovitch, Marcus
AU - Williamson, Dominic
AU - Chen, Ziye
AU - Bálint, Biró
AU - Bari, M Saiful
AU - Kassani, Peyman
AU - Wang, Zihao
AU - Ansarinejad, Behzad
AU - Goswami, Laxman Prasad
AU - Sun, Yewen
AU - Elgnainy, Hossam
AU - Sayed, Mohamed
AU - Tordera, Daniel
AU - Balabanian, George
AU - Anderson, Earth
AU - Kvistad, Lynna
AU - Moyano, Alejandro José
AU - Maheshwari, Rajat
AU - Sakor, Ahmad
AU - Eron, Murat
AU - McAlister, Isaac C.
AU - Gimenez, Javier
AU - Enyekwe, Innocent
AU - Andrew, Favre D. O.
AU - Shah, Shailesh
AU - Zhou, Xiaoxiang
AU - Kamalov, Firuz
AU - Clark, Ronald
AU - Abdoli, Sherwin
AU - Santens, Tim
AU - Meer, Khalida
AU - Wang, Harrison K
AU - Ramakrishnan, Kalyan
AU - Chen, Evan
AU - Tomasiello, Alessandro
AU - Luca, G. Bruno De
AU - Looi, Shi-Zhuo
AU - Le, Vinh-Kha
AU - Kolt, Noam
AU - Mündler, Niels
AU - Semler, Avi
AU - Rodman, Emma
AU - Drori, Jacob
AU - Fossum, Carl J
AU - Gloor, Luk
AU - Jagota, Milind
AU - Pradeep, Ronak
AU - Fan, Honglu
AU - Shah, Tej
AU - Eicher, Jonathan
AU - Chen, Michael
AU - Thaman, Kushal
AU - Merrill, William
AU - Firsching, Moritz
AU - Harris, Carter
AU - Ciobâcă, Stefan
AU - Gross, Jason
AU - Pandey, Rohan
AU - Gusev, Ilya
AU - Sharma, Asankhaya
AU - Agnihotri, Shashank
AU - Zhelnov, Pavel
AU - Usawasutsakorn, Siranut
AU - Mofayezi, Mohammadreza
AU - Bogdanov, Sergei
AU - Piperski, Alexander
AU - Carauleanu, Marc
AU - Zhang, David K.
AU - Dobarskyi, Kostiantyn
AU - Ler, Dylan
AU - Leventov, Roman
AU - Soroko, Ignat
AU - Jansen, Thorben
AU - Creighton, Scott
AU - Lauer, Pascal
AU - Duersch, Joshua
AU - Taamazyan, Vage
AU - Bezzi, Dario
AU - Morak, Wiktor
AU - Ma, Wenjie
AU - Held, William
AU - Huy, Tran Đuc
AU - Xian, Ruicheng
AU - Zebaze, Armel Randy
AU - Mohamed, Mohanad
AU - Leser, Julian Noah
AU - Yuan, Michelle X
AU - Yacar, Laila
AU - Lengler, Johannes
AU - Olszewska, Katarzyna
AU - Shahrtash, Hossein
AU - Oliveira, Edson
AU - Jackson, Joseph W.
AU - Gonzalez, Daniel Espinosa
AU - Zou, Andy
AU - Chidambaram, Muthu
AU - Manik, Timothy
AU - Haffenden, Hector
AU - Stander, Dashiell
AU - Dasouqi, Ali
AU - Shen, Alexander
AU - Duc, Emilien
AU - Golshani, Bita
AU - Stap, David
AU - Uzhou, Mikalai
AU - Zhidkovskaya, Alina Borisovna
AU - Lewark, Lukas
AU - Rodriguez, Miguel Orbegozo
AU - Vincze, Mátyás
AU - Wehr, Dustin
AU - Tang, Colin
AU - Hossain, Zaki
AU - Phillips, Shaun
AU - Samuele, Fortuna
AU - Muzhen, Jiang
AU - Ekström, Fredrik
AU - Hammon, Angela
AU - Patel, Oam
AU - Remy, Nicolas
AU - Farhidi, Faraz
AU - Medley, George
AU - Mohammadzadeh, Forough
AU - Peñaflor, Madellene
AU - Kassahun, Haile
AU - Friedrich, Alena
AU - Sparrow, Claire
AU - Perez, Rayner Hernandez
AU - Sakal, Taom
AU - Dhamane, Omkar
AU - Mirabadi, Ali Khajegili
AU - Hallman, Eric
AU - Okutsu, Kenchi
AU - Battaglia, Mike
AU - Maghsoudimehrabani, Mohammad
AU - Hoang, Hieu
AU - Amit, Alon
AU - Hulbert, Dave
AU - Pereira, Roberto
AU - Weber, Simon
AU - Mensah, Stephen
AU - Koech, Alice
AU - Handoko, Indria
AU - Peristyy, Anton
AU - Harjadi, Chris
AU - Gupta, Himanshu
AU - Malina, Stephen
AU - Albanie, Samuel
AU - Cai, Will
AU - Mehkary, Mustafa
AU - Aly, Rami
AU - Reidegeld, Frank
AU - Dick, Anna-Katharina
AU - Friday, Cary
AU - Sidhu, Jasdeep
AU - Shapourian, Hassan
AU - Kim, Wanyoung
AU - Costa, Mariana
AU - Gurdogan, Hubeyb
AU - Weber, Brian
AU - Kumar, Harsh
AU - Jiang, Tong
AU - Agarwal, Arunim
AU - Ceconello, Chiara
AU - Vaz, Warren S.
AU - Zhuang, Chao
AU - Park, Haon
AU - Tawfeek, Andrew R.
AU - Aggarwal, Daattavya
AU - Kirchhof, Michael
AU - Dai, Linjie
AU - Kim, Evan
AU - Ferret, Johan
AU - Wang, Yuzhou
AU - Yan, Minghao
AU - Burdzy, Krzysztof
AU - Zhang, Lixin
AU - Franca, Antonio
AU - Pham, Diana T.
AU - Loh, Kang Yong
AU - Robinson, Joshua
AU - Jackson, Abram
AU - Gul, Shreen
AU - Chhablani, Gunjan
AU - Du, Zhehang
AU - Cosma, Adrian
AU - Colino, Jesus
AU - White, Colin
AU - Riblet, Robin
AU - Saxena, Prajvi
AU - Votava, Jacob
AU - Vinnikov, Vladimir
AU - Delaney, Ethan
AU - Halasyamani, Shiv
AU - Shahid, Syed M.
AU - Mourrat, Jean-Christophe
AU - Vetoshkin, Lavr
AU - Sponselee, Koen
AU - Bacho, Renas
AU - Ginis, Vincent
AU - Maksapetyan, Aleksandr
AU - Rosa, Florencia de la
AU - Li, Xiuyu
AU - Malod, Guillaume
AU - Lang, Leon
AU - Laurendeau, Julien
AU - Tiryakioglu, Murat
AU - Kazakov, Dmitry
AU - Adesanya, Fatimah
AU - Portier, Julien
AU - Hollom, Lawrence
AU - Souza, Victor
AU - Zhou, Yuchen Anna
AU - Degorre, Julien
AU - Yalın, Yiğit
AU - Obikoya, Gbenga Daniel
AU - Arnaboldi, Luca
AU - Rai, Aanchal
AU - Bigi, Filippo
AU - Boscá, M. C.
AU - Shumar, Oleg
AU - Bacho, Kaniuar
AU - Clavier, Pierre
AU - Recchia, Gabriel
AU - Popescu, Mara
AU - Shulga, Nikita
AU - Tanwie, Ngefor Mildred
AU - Lux, Thomas C. H.
AU - Rank, Ben
AU - Ni, Colin
AU - Brooks, Matthew
AU - Yakimchyk, Alesia
AU - Huanxu, null
AU - Liu, J.
AU - Häggström, Olle
AU - Verkama, Emil
AU - Narayan, Himanshu
AU - Gundlach, Hans
AU - Brito-Santana, Leonor
AU - Amaro, Brian
AU - Vajipey, Vivek
AU - Grover, Rynaa
AU - Fan, Yiyang
AU - Silva, Gabriel Poesia Reis e
AU - Xin, Linwei
AU - Kratish, Yosi
AU - Łucki, Jakub
AU - Li, Wen-Ding
AU - Gopi, Sivakanth
AU - Caciolai, Andrea
AU - Xu, Justin
AU - Scaria, Kevin Joseph
AU - Vargus, Freddie
AU - Habibi, Farzad
AU - Long, AC
AU - Lian, Lu Yun
AU - Rodolà, Emanuele
AU - Robins, Jules
AU - Cheng, Vincent
AU - Grabb, Declan
AU - Bosio, Ida
AU - Fruhauff, Tony
AU - Akov, Ido
AU - Raynor, Brad
AU - Lo, Eve J. Y.
AU - Qi, Hao
AU - Jiang, Xi
AU - Segev, Ben
AU - Fan, Jingxuan
AU - Martinson, Sarah
AU - Wang, Erik Y.
AU - Hausknecht, Kaylie
AU - Brenner, Michael P.
AU - Mao, Mao
AU - Jiang, Yibo
AU - Zhang, Xinyu
AU - Avagian, David
AU - Scipio, Eshawn Jessica
AU - Siddiqi, Muhammad Rehan
AU - Ragoler, Alon
AU - Tan, Justin
AU - Patil, Deepakkumar
AU - Sims, Blake
AU - Plecnik, Rebeka
AU - Kirtland, Aaron
AU - Montecillo, Roselynn Grace
AU - Durand, Stephane
AU - Bodur, Omer Faruk
AU - Shinde, D. P.
AU - Adoul, Zahra
AU - Zekry, Mohamed
AU - Douville, Guillaume
AU - Karakoc, Ali
AU - Santos, Tania C. B.
AU - Shamseldeen, Samir
AU - Karim, Loukmane
AU - Liakhovitskaia, Anna
AU - Resman, Nate
AU - Farina, Nicholas
AU - Gonzalez, Juan Carlos
AU - Maayan, Gabe
AU - Hoback, Sarah
AU - Pena, Rodrigo De Oliveira
AU - Finocchio, Ross
AU - Sherman, Glen
AU - Kelley, Elizabeth
AU - Mariji, Hodjat
AU - Pouriamanesh, Rasoul
AU - Wu, Wentao
AU - Demir, Gözdenur
AU - Mendoza, Sandra
AU - Alarab, Ismail
AU - Cole, Joshua
AU - Ferreira, Danyelle
AU - Johnson, Bryan
AU - Milliron, Hsiaoyun
AU - Safdari, Mohammad
AU - Dai, Liangti
AU - Arthornthurasuk, Siriphan
AU - Pronin, Alexey
AU - Fan, Jing
AU - Ramirez-Trinidad, Angel
AU - Cartwright, Ashley
AU - Pottmaier, Daphiny
AU - Taheri, Omid
AU - Outevsky, David
AU - Stepanic, Stanley
AU - Perry, Samuel
AU - Askew, Luke
AU - Rodríguez, Raúl Adrián Huerta
AU - Minissi, Ali M. R.
AU - Dendane, Abdelkader
AU - Ali, Sam
AU - Lorena, Ricardo
AU - Iyer, Krishnamurthy
AU - Fasiludeen, Arshad Anil
AU - Salauddin, Sk Md
AU - Islam, Murat
AU - Gonzalez, Juan
AU - Ducey, Josh
AU - Campbell, Russell
AU - Somrak, Maja
AU - Mavroudis, Vasilios
AU - Vergo, Eric
AU - Qin, Juehang
AU - Borbás, Benjámin
AU - Chu, Eric
AU - Lindsey, Jack
AU - Radhakrishnan, Anil
AU - Jallon, Antoine
AU - McInnis, I. M. J.
AU - Hoover, Alex
AU - Möller, Sören
AU - Bian, Song
AU - Lai, John
AU - Peskoff, Denis
AU - McGowan, Joseph
AU - Patwardhan, Tejal
AU - Yue, Summer
AU - Wang, Alexandr
AU - Hendrycks, Dan
N1 - 26 pages, 6 figures
PY - 2025/1/24
Y1 - 2025/1/24
N2 - Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve over 90\% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce Humanity's Last Exam (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. HLE consists of 3,000 questions across dozens of subjects, including mathematics, humanities, and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable, but cannot be quickly answered via internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a significant gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at https://lastexam.ai.
AB - Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve over 90\% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce Humanity's Last Exam (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. HLE consists of 3,000 questions across dozens of subjects, including mathematics, humanities, and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable, but cannot be quickly answered via internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a significant gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at https://lastexam.ai.
KW - cs.LG
KW - cs.AI
KW - cs.CL
M3 - Preprint
BT - Humanity's Last Exam
ER -