Masterarbeit benchmark task for Russian-Ukrainian interference
-
[[231213-1710 Ukrainska Pravda dataset#Can I also use this to generate tasks for the UA-CBT ( 231024-1704 Master thesis task CBT ) task?]] : both 3.5 and 4 during summarization use definitely Russian-inspired phrases :
-
In the news summarization bit, it magically changed Євген->Евген (https://chat.openai.com/share/2f6cf1f3-caf5-4e55-9c1b-3dbd6b73ba29)
-
Та подивись, баране, як я виглядаю з цим стильним сурдутом1
Вертить хвостиком і крутить рогами. Цап робить враження2.
Old links
(from 230928-1630 Ideas for Ukrainian LM eval tasks)
- СЛОВОВЖИВАННЯ | Горох — українські словники
- відноситися - Антисуржик. Словник «українського» суржика
- Словник-антисуржик онлайн
- Антисуржик (словник) - Русский/украинский язык, культура - Форум Днепродзержинск-Каменское
EXCELLENT! Мова – не калька: словник української мови - Тарас Береза - Тека авторів - Чтиво- parse -> estimate frequency -> include only the most frequent?
- A lot of the examples there are let’s say questionable to my central-Ukrainian ear
- голий -> “У костюмі (в одежі) Адама і Єви; у чому мати [на світ] народила.” alrighty then
- Льотчик -> летун
- Ліберія -> “Вільна країна” I’m done
- I want RU interference (!= суржик); I want RU interference (!= стилістика)
- Some kind of filtering is definitely needed. Could be as easy as putting “1” in rows of a spreadsheet
- https://chtyvo.org.ua/authors/Tykhyi_Oleksii/Slovnyk_movnykh_pokruchiv.pdf
- Суржиково-український словник
- has really nice intro!
- Українське життя в Севастополi Юрій Гнаткевич СЛОВНИК-АНТИСУРЖИК ^ff5ccc
- Frame as multiple-choice task! Or boolean? Or “Is this a correct sentence”?
- I really like this: `“Цей студент [взявся за/почав] дослідження важкої теми.”
- For fun, here’s ChatGPT lying about prefixes: https://chat.openai.com/share/0eda9061-d2cf-46bc-ad45-38cc6e58934a
- False friends!
- Here’s an itemized list: Фальшиві друзі перекладача — Вікіпедія
- сир/сыр, неділя/неделя/…
- False Friends of the Slavist/Russian-Ukrainian - Wikibooks, open books for an open world
- ChatGPT ideas:
-
On the semantic front, exploit polysemy and homonymy differences. Formulate sentences with words that have multiple meanings in Russian, but those meanings have distinct equivalents in Ukrainian. This will challenge the model to accurately discern the intended sense based on context.