Random side quests about the Masterarbeit
UA-RU parallel corpus
pravda.com.ua1 має статті трьома мовами:
- Залужний востаннє поговорив з Міллі на його посаді | Українська правда
- Залужный в последний раз поговорил с Милли в его должности | Украинская правда
- Commander-in-Chief of Ukrainian Armed Forces speaks with Milley for last time before latter steps down | Ukrainska Pravda
The difference seems to be only in that one part of the URL!
Article; title; tags; date,author.
Then article title+classification might be one of the benchmark tasks!
Is there anything stopping me from scraping the hell out of all of it?
Google finds 50k articles in /eng/
, 483k in /rus/
, assumption: all english articles were translated to Russian as well.
=> For each english article, try to get the Russian and Ukrainian one from the URI.
-
©2000-2023, Українська правда. Використання матеріалів сайту лише за умови посилання (для інтернет-видань - гіперпосилання) на “Українську правду” не нижче третього абзацу.
- Правила використання матеріалів сайтів Інтернет-холдингу ‘‘Українська правда’’ (Оновлено) | Українська правда
Related: ua-datasets/ua_datasets/src/text_classification at main · fido-ai/ua-datasets Related: facebook/flores · Datasets at Hugging Face frow wikinews in infinite languages including UA!
Somehow magically use WikiData
- Douglas Adams - Reasonator
- KGQA/QALD_9_plus: QALD-9-Plus Dataset for Knowledge Graph Question Answering
How does alignment/censoring work with UA?
eg could other langs help for that?2
-
Same goes for Економічна правда and friends. ↩︎
-
(172) Detailed walkthrough of procedure to uncensor models : LocalLLaMA.g. ↩︎