Exploring Advanced Reasoning Abilities of Large Language Models in Slovak

Študent: Adam Zahradník ([email protected])
Školiteľ: Mgr. Marek Šuppa
Zadanie

(Týž)denník

2024/W18 (29.4. +)

Tento týždeň som na sústredení KSP - no update.

2024/W17 (22.4. +)

Tento týždeň plánujeme naplánovať a vykonať experimenty one-shot promptingu, ukázať, či sa nad naším datasetom dá testovať aj few-shot prompting a aspoň pripraviť experimenty na chain-of-thought zero-shot prompting.

Z písomnej časti uzavrieme úvodnú kapitolu a doplníme dosiahnuté výsledky zo zero-shot promptingu, ktoré sme prezentovali minulý ťýždeň na ŠVK.

úvodná kapitola Bc. práce (BAKSEM checkpoint)

Update k ŠVK: boli sme pozvaní, aby sme reprezentovali fakultu na medzištátnom kole ŠVOČ v Olomouci 26.-28.mája, ak sa všetko podarí, zúčastníme sa.

2024/W16 (15.4. +)

Minulý týždeň sa dokončilo spracovanie zero-shot výsledkov, písanie sa nám až tak nepodarilo, keďže veľa času sa venovalo príprave na ŠVK.

Tento týždeň sme sa zúčastnili s našou prácou na ŠVK, na ktorej sme sa stali laureátmi ŠVK v sekcii Informatika.

2024/W15 (8.4. +)

Minulý týždeň sme úspešne dokončili zero-shot experimenty nad fyzikálnou častou datasetu a pripravili experimenty nad programovaciou časťou.

Tento týždeň chceme dokončiť spracovávanie zero-shot výsledkov, spísať informácie o riešeniach v datasetoch a dokončiť niektoré časti introduction kapitoly.

2024/W14 (1.4. +)

Podarilo sa nám minulý týždeň dokončiť testovací framework a spusiť už aj prvé testy nad matematickou časťou datasetu.

Zároveň som takmer dopísal kapitolu o našom datasete, zostáva spísať ešte nejaké informácie o riešeniach úloh, ktoré v datasete máme.

Tento týždeň venujeme jednak príprave príspevku na ŠVK, a dokončením zero-shot experimentov nad našimi úlohami.

Zatiaľ sme testovali naše úlohy na modeloch GPT-4 a GPT-3.5-Turbo. Priemerné ohodnotenie v matematických príkladoch je 1.24/10 pre GPT-3.5-Turbo a 2.26 pre GPT-4. Okrem toho, že GPT-4 dosahuje všeobecne lepšie výsledky ako GPT-3.5-Turbo, možno si všimnúť, že v jednoduchších príkladoch je tento rozdiel výraznejší.

Difficulty vs. Points scored

LLM niekedy produkujú výsledky v angličtine a nie v slovenčine, napriek tomu nie je výrazný rozdiel v dosahovaných bodoch medzi výstupnými jazykmi (priemer 🇸🇰: 1,72; 🇬🇧: 1,62). Ďalej sme testovali, čo sa stane ak preložíme zadania do slovenčiny a pošleme modelu takto preložené úlohy. Toto sme skúšali zatiaľ len na malej podmnožine nášho datasetu (n=35). Výsledky nenaznačujú žiadny vplyv na dosiahnuté body (priemer 🇸🇰: 0,60; 🇬🇧: 0,58).

2024/W13 (25.3. +)

Minulý týždeň sa začala práca na testovaciom frameworku, ktorý by sme chceli tento týždeň dokončiť.

Okrem toho cez týždeň chceme dopísať kapitolu popisujúcu vlastnosti, úlohy a obsah nášho datasetu - nejaké popisy, čo vlastne náš dataset obsahuje, nejaké štatistické informácie, príklady a celkový prehľad.

2024/W12 (18.3. +)

Začiatkom týždňa som sfinalizoval dataset príkladov. Začal som experimentovať s GPT-3.5-Turbo, zatiaľ veľmi priamočiaro. Cez týždeň sa budem venovať príprave nástrojov a frameworku na automatizáciu experimentov nad datasetom.

2024/W11 (11.3. +)

Začiatkom týždňa sa našli ešte nejaké ďalšie príklady, takže tento týždeň sme venovali dokončeniu a finalizácií nášho datasetu. Okrem toho sa mi podarilo pohnúť s obsahom kapitol o datasete a doplniť informácie o zlyhaniach experimentálnej extrakcie textu pomocou nástroja Nougat. Cez týždeň sme ešte pripravovali prístupy k rozhraniu OpenAI.

2024/W10 (4.3. +)

Pokračujeme v klasifikácií úloh, so školiteľom sme si prešli návrhy mojich experimentov na datasete. Cez víkend vyberieme zopár úloh a skúsime na nich pripraviť a spustiť experimenty voči gpt-3.5-turbo.

2024/W9 (26.2. +)

Tento týždeň venujeme klasifikácií úloh v našom datasete a návrhu úvodných experimentov, aby sme už mohli niečo dať modelom.

Priebežne pokračujem v dokumentácií prior work v oblasti vyhodnocovania výsledkov.

2024/W8 (19.2. +)

Máme veľkú časť datasetu pripravenú. Skúšame, či by sa nedali niektoré PDF zadania prekonvertovať do TeXu/Markdownu.

Nástroj Nougat vyzerá ako sľubné riešenie, avšak na mne dostupných zariadeniach je pomerne pomalý (~5 min/str.). Pokúšame sa ho rozbehať na výkonnejšiom serveri.

So školiteľom sme sa stretli vo štvrtok, vyriešili sme prístupy na GPU server pre behanie Nougat-u.

Prediskutovali sme existujúce spôsoby hodnotenia výstupov LLM. Do ďalšieho stretnutia spíšem, čo skúšali ľudia pred nami a skúsim poklasifikovať úlohy v našom datasete podľa toho, či vedú k číselným výsledkom. Ideálne ešte stihnem pripraviť návrh experimentov, aby sme budúci týždeň už vedeli niečo dať modelom.

Plán práce

✅ - hotovo, ⭕️ - aktuálne prebieha.

✅ Pripraviť rozhranie na písanie práce a vyplniť template.
✅ Pozrieť si existujúce datasety úloh a metodiky ich vyhodnocovania.
✅ Zozbierať dostupné úlohy v textovom formáte z archívu.
✅ Skúsiť skonvertovať staršie zadania z PDF do textového formátu.
✅ Prečítať si viac o doterajších výsledkoch a spôsoboch vyhodnocovanie LLM výstupov.
✅ Spísať prior work o vyhodnocovaní LLM výstupov a existujúce metódy.
✅ Dokončiť spísanie doterajších existujúcich datasetov.
✅ Navrhnúť a spísať experimenty na benchmarkovanie modelov na našom datasete.
✅ Prečítať si viac o prompting technikách a ich výsledkoch.
⭕️ Vykonať navrhnuté experimenty na skutočných modeloch.
- ✅ Zero-shot (✅ matematika, ✅ fyzika, ✅ informatika)
- ⭕️ One-shot
- Few-shot
- CoT
- ⭕️ Zero-shot CoT
- ⭕️ Generated knowledge
- Dual prompt generated knowledge
- Least-to-Most prompting
- Preklad zadaní
Spísať a vyhodnotiť výsledky, porovnať s medzinárodným výskumom.

Aktuálne zdroje a odkazy

Deep Neural Solver for Math Word Problems (Wang, Yan and Liu, Xiaojiang and Shi, Shuming)
Training Verifiers to Solve Math Word Problems (Karl Cobbe and Vineet Kosaraju and Mohammad Bavarian and Mark Chen and Heewoo Jun and Lukasz Kaiser and Matthias Plappert and Jerry Tworek and Jacob Hilton and Reiichiro Nakano and Christopher Hesse and John Schulman)
Language Models are Few-Shot Learners (Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei)
Language Models are Unsupervised Multitask Learners (Alec Radford and Jeff Wu and Rewon Child and David Luan and Dario Amodei and Ilya Sutskever)
MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based (Aida Amini and Saadia Gabriel and Shanchuan Lin and Rik Koncel{-}Kedziorski and Yejin Choi and Hannaneh Hajishirzi)
Language Models are Multilingual Chain-of-Thought Reasoners (Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei)
Solving General Arithmetic Word Problems (Subhro Roy and Dan Roth)
A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers (Shen-Yun Miao and Chao-Chun Liang and Keh-Yih Su)
MAWPS: A Math Word Problem Repository (Koncel-Kedziorski, Rik and Roy, Subhro and Amini, Aida and Kushman, Nate and Hajishirzi, Hannaneh)
Are NLP Models really able to Solve Simple Math Word Problems? (Arkil Patel and Satwik Bhattamishra and Navin Goyal)
Nougat: Neural Optical Understanding for Academic Documents (Lukas Blecher and Guillem Cucurull and Thomas Scialom and Robert Stojnic)