serhii.net

In the middle of the desert you can say anything you want

08 Apr 2024

Masterarbeit final checklist

  • Punctuation

    • all citations to word~/cite{xxx}.
    • all footnotes to sentence.\footnote{}1
      • either full sentence or lowercase part
      • but within parentheses!
    • for both, it’s sent~\cite{}.\footnote{}
    • all numbers to 132,32.99
    • Consistent quoting (using the correct latex quotes or \enquote{} with italics for longer sentences.)
    • all refs to autorefs
      • Autoref fails with appendix subsections, do it manually.
    • tightlists everywhere
    • Overleaf ‘stop on first error’ to fix the errors
    • Title Case in all Titles
  • Bits

    • CBT-UA -> UA-CBT
    • LMentry-static-UA shorten to LMES once and keep using LMES.
    • Eval-UA-tion should be captialized
    • Thesis always capitalized
    • gpt2/GPT2 -> GPT-2.
    • check for stray ‘we’s in the paper
      • “our”/“we” “paper”
    • look for sticking out over-the-line bits
    • Python is capitalized
    • all Grammarly suggestions
  • Not bits

    • go through all latex comments
    • go through all latex warnings
    • go through all todos in home.md + taskwarrior

====== Open research questions:

  • Research
    • look into whether translated datasets are worse at stuff
    • monolingual VS multilingual models incl Ukrainian performance
    • Whether prompt language makes a differenec on Ukrainian task
  • Datasets:

SH, [10 Apr 2024 14:58:39] LMES — дослідити robustness моделей, і наприклад глянути яка залежність accuracy людей і ШІ в залежності від мммм різниці в довжині слів чи номеру слова (“яке стотринадцяте слово в реченні …”) CBT-UA — нормально evaluate, а ще для людей і машин — глянути scores якщо давати тільки challenge segment. Я це тестив з нейромережами (не попало в paper), але там дуже часто були кращі результати з фрагментом ніж з усією казкою

SH, [10 Apr 2024 14:59:57] Зробити датасет по biases і фемінітивам, у мене написаний код для генерації нульової версії, там по суті речення типу “моя жінка займається програмуванням компʼютерних систем, тобто за професією вона — ….”

SH, [10 Apr 2024 15:00:20] Мрія всього життя таки зробити Russian-Ukrainian interference dataset на предмет русизмів та російських помилок

SH, [10 Apr 2024 15:02:57] UA-CBT — взяти казки з project Gutenberg, взяти іноземні казки перекладені українською, і порівняти scores моделей на тасках по казкам з цих різних джерел. Можна забити на фільтрацію, чисто зробити human baseline на частині згенерованого датасету. Так можна зробити нереально великий датасет і знати що там максимум умовнио 80% бо 20% тасків сміття

Also:

  • CATSMC and friends — much larger datasets can be generated from the given data, a lot of combinations are possible.
Nel mezzo del deserto posso dire tutto quello che voglio.