In the middle of the desert you can say anything you want
This will be the Markdown draft, I’ll jot things down and then expand.
These guys trained an UA LM(youscan/ukr-roberta-base · Hugging Face), but tested it on their internal tasks and they say it’s better than bert-base-multilingual-cased : How to Train a New Language Model for NLP | YouScan
ua-datasets
Contextual Embeddings for Ukrainian: A Large Language Model Approach to Word Sense Disambiguation - ACL Anthology<@labaContextualEmbeddingsUkrainian2023
Contextual Embeddings for Ukrainian (2023) z/d/>
Original: <@taskCBT
(2015) z/d/>
Get Ukrainian book, POS-tag, generate questions
Context: 230928-1527 Evaluation benchmark for DE-UA text Here I’ll keep random interesting benchmarks I find.
code: GLUECoS/Code at master · microsoft/GLUECoS
pravda.com.ua1 має статті трьома мовами:
The difference seems to be only in that one part of the URL!
Article; title; tags; date,author.
Then article title+classification might be one of the benchmark tasks!
Is there anything stopping me from scraping the hell out of all of it?
Google finds 50k articles in /eng/
, 483k in /rus/
, assumption: all english articles were translated to Russian as well.
=> For each english article, try to get the Russian and Ukrainian one from the URI.
©2000-2023, Українська правда. Використання матеріалів сайту лише за умови посилання (для інтернет-видань - гіперпосилання) на “Українську правду” не нижче третього абзацу.
Related: ua-datasets/ua_datasets/src/text_classification at main · fido-ai/ua-datasets Related: facebook/flores · Datasets at Hugging Face frow wikinews in infinite languages including UA!
Same goes for Економічна правда and friends. ↩︎
Context: 230928-1527 Evaluation benchmark for DE-UA text
@taskCBT
(2015) z/d/>
From 5, automatically generated!
I could also use a graph-based approach? As in create an ontology, ask questions about it?..
Or split it into multiple sub-tasks! one for time, one for y/n, etc.?
Завдання та відповіді на тести ЗНО/НМТ 2022, 2021, 2020, 2019, 2018 та минулих років – Освіта.UA:
Find some popular website with comments and ratings, do sentiment analysis: can I scrape
https://rozetka.com.ua/jagermeister_4067700015532_/p4971091/comments/ ?
Not all comments are in UA but I can filter it.
From fido-ai/ua-datasets: A collection of datasets for Ukrainian language:
ParlAI/parlai/tasks/squad2/test/squad2_index_test.yml at main · facebookresearch/ParlAI ↩︎
matheuss/google-translate-api: A free and unlimited API for Google Translate :dollar::no_entry_sign: ↩︎
Babi: <@westonAICompleteQuestionAnswering2015
Towards AI-Complete Question Answering (2015) z/d/> / Holistic Evaluation of Language Models (HELM) ↩︎
Officially - I’m doing this!
This post will be about dumping ideas and stuff.
Related posts for my first paper on this topic:
Procedural:
Github
#nlp #benchmark
s Repository search resultsCool model with links to datasets etc.! robinhad/kruk: Ukrainian instruction-tuned language models and datasets
Datasets UA, almost exclusively
Benchmarks UA
ua_datasets is a collection of Ukrainian language datasets. Our aim is to build a benchmark for research related to natural language processing in Ukrainian.
UA grammar/resources/…
> curl -F json=false -F data='привіт мене звати Сірьожа' -F tokenizer= -F tagger= -F parser= https://api.mova.institute/udpipe/process
General evaluation bits:
Here:230928-1735 Other LM Benchmarks notes
<@labaContextualEmbeddingsUkrainian2023
Contextual Embeddings for Ukrainian (2023) z/d/> / Contextual Embeddings for Ukrainian: A Large Language Model Approach to Word Sense Disambiguation - ACL Anthology ↩︎
Вы всё равно не знаете, что с этими жизнями делать. И куда бы вы ни глядели, вы все равно глядите в огонь, в котором сгорает ваша жизнь. Милосердие в том, что вместо крематориев у вас телевизоры и супермаркеты. А истина в том, что функция у них одна. (Пелевин, “Generation ‘П’")1
Недавно мені до рук потрапило видання книги “Моральні листи до Луцілія — Вікіпедія” Сенеки, майже ідентичне тому, яке я читав багато разів в останніх класах школи і перших курсах університету. Книжку надзвичайно любив ще тоді, і вона для мене, разом з “Келією Чайної Троянди” Костянтина Москальця, найважливіша книжка того періоду, або - не побоюсь цих слів - найважливіша книжка, крапка.
Та перша книжка (розписана, потерта та помʼята, як має бути книга, яку читають) була забута в кріслі літака МАУ, і я забув про її існування. До сьогоднішнього дня, коли в моїх руках не опинилась її сестра, в тій самій обкладинці, з тим самим перекладом, тільки (незрозуміло, як) трошки товстіша за попереднью.
Прочитав перші 15 листів ледь не на одному подиху, згадуючи як окремі думки так і конкретні речення/формулювання, підкреслюючи ті самі цитати в тих самих місцях, насолоджуючись кожною секундою.
У мене традиція - всі книжки, які я читаю, я датую на 13 сторінці, і читаючи - дуже багато розписую, підкреслюю, … (Якщо в книзі нічого підкреслювати - книжка не варта того, щоб її взагалі читати). Потім кожного разу, коли я цю книжку перечитую, я роблю все те саме - підписую і датую тринадцяту сторінку і т.д., але вже іншим кольором. Так чітко видно, які речі мені здавались важливими колись, які я не помітив, які не розумів, які перестав розуміти, і т.п., так би мовити історія мого сприйняття книжки.
(Один з найгірших спогадів в житті повʼязаний з тим-таки примірником Сенеки, ту книжку я читав до депресії, попідкреслював, і перечитуючи в пошуках комфорту на самому дні раптом зрозумів, що половина моїх поміток - на занадто довгих реченнях для мене зараз, і в мене недостатньо робочої памʼяті, щоб їх зрозуміти, хоча ще два роки тому розумів…)3
Так от, у цієї книжки я чітко пригадував, що мені там подобалось, з цим я був не згодним, що вразило, і так далі.
І те, наскільки перебільшеним, елітарним та неактуальним я сприйняв лист VII.
Книжка вважається одним з двох найважливіших книжок філософської течії стоїцизму (друга - “Розмисли. Наодинці з собою” Марка Аврелія). Вона оформлена як листи старшого товариша молодшому, і там ненавʼязливо описуються думки Сенеки про те, як правильно жити.
Біографію Сенеки та його філософією гармонізувати складно, і він сам це розумів. Є коли “If you are so smart why aren’t you rich”, а є коли пишеш моральні листи але сам прийшов до влади при імператорі Калігула, був особистим вчителем Нерона (і досяг вершини багатства і влади саме при ньому)5. Але я все життя вірив, що можна чомусь навчитись і у поганого оратора, Сенека ж пише дуже непогано. Те, що Сенека не прожив життя так, як проповідував, і те, що його track record як вчителя не блискучий (Нерон…), не заважає мені вважати його думки цікавими і цінними. Я впевнений, що Сенека погодився б з цим. Він багато писав про те, що все гарно написане - класне, хто б не був автором.6
Так от (виділення мої, цитати тут і далі наводитиму за чудовим перекладом Андрія Содомора):
Сенека вітає свого Луцілія!
Питаєш, чого слід уникати передусім? Юрби. Тобі ще небезпечно стикатися з нею. Я принаймні не приховую своєї слабості: ніколи не можу повернутися додому, зберігши неторкнутими ті звичаї, які виніс. Дещо з того, що я довів до ладу, розладнується; дещо, чого позбувся, повертається.
[…]
Спілкування з багатьма, - шкідливе. Завжди-бо трапляється хтось такий, хто або напучує нас на якийсь порок, або таки передасть його нам, або непомітно забруднить ним. Отже, що густіша юрба, в яку поринаємо, то більша для нас небезпека. Але ніщо не є таким згубним для добрих звичаїв, як учащати на якісь видовища. Саме тоді разом із приємністю легко прокрадаються в душу й пороки. Розумієш, що маю на увазі? Повертаюся звідти пожадливіший, марнославніший, вибагливіший, навіть жорстокіший і нелюдяніший - побував серед люду.
[…]
«Але ж не один із них йшов на грабунок, убив людину».- Ну й що з того? Він убив, він і розплачується тепер. А ти, що ти вчинив, нещасний, щоб дивитись на це?.. «Вбивай, шмагай, пали! Чому так боязко набігає на меч? Чому так нерішуче вбиває? Чому так мляво йде на смерть? Батогом женіть на вістря, хай голими грудьми навзаєм приймають удари!» Перерва у видовищах? - «Хай і в перерві гинуть люди, щоб не було й хвилини, нічим не заповненої!»
Невже не розумієте, що погані приклади обертаються проти тих, хто їх подає? Дякуйте безсмертним богам, що жорстокості вчите того, хто надто тупий до науки. Так. Од юрби якомога далі повинен перебувати той, чия душа ще надто ніжна й ще не досить цупко тримається добра: легко переходить на сторону більшості. […]
Хоч як гартуємо свою вдачу, а перед такою навалою пороків ледве чи хтось міг би встояти. Чимало зла тягне за собою один лише приклад чи то марнотратства, чи скупості; спілкування з розбещеним поволі й нас розслаблює і розніжує; багатий сусід роздуває жадобу; пороком, наче ржею, пройметься від лихого товариша навіть світла, щира душа. То що, гадаєш, зостанеться від нашої доброзвичайності, коли на неї рушить увесь люд? Неодмінно або наслідуватимеш його, або - зненавидиш. Слід уникати як одного, так і другого: не вподібнюйся до лихих через те, що їх багато, але й з багатьма не ворогуй через те, що вони неподібні до тебе. Заглиблюйся, наскільки можливо, в себе самого.
Приятелюй лише з тими, які можуть зробити тебе кращим. Вигода тут обопільна: люди, навчаючи, вчаться.[…]
Сенека писав про шкідливість юрби та видовищ. Видовища в тому контексті - битви гладіаторів. (Юрба - просто юрба, буквально і в переносному сенсі, as far as I can tell.)
Релевантність впливу битв гладіаторів на мораль та психіку громадян в Києві XXI століття мені вважалась нульовою; заборона говорити з юрбою/людьми, щоб не дай Боже не навчитися від дних дна, вважалась невиправдано елітарною (хоча якби мої співвідчизники ходили дивитися на страти від нудьги - who knows; у будь-якому випадку Листи писались, коли Сенека майже тотально розчарувався в своїх громадянах та, гм, владі).
Читаючи на рівні очевидних метафор того і іншого - ну ок, так, можу зрозуміти меседж, але він не вау і це не мій улюблений лист.
Таке буває часто, якщо читати відносно древні книжки, часи міняються, люди міняються, мораль міняється, те, що вважалось ненормальним в 1965 році зараз очевидне, - чого хотіти від книжки 65 (шістдесят пʼятого) року. Взагалі тема що гладіатори не ОК, бо викликають як мінімум жорстокість, в часи написання книги мабуть була якщо не революційною, то точно не мейнстримною. Очевидні класні кусочки (“Приятелюй лише з тими, які можуть зробити тебе кращим.") є, вони є завжди, а так - дочитуємо, перегортаємо сторінку, і йдемо далі.
Читаючи цей Лист зараз, пригадуючи, як ледь не зверхньо я його пропускав раніше, раптово, я зрозумів релевантність цих рядків і прикладів (як мінімум для мене).
(Джерело: (172) Reddit - Dive into anything)
Повертаюся звідти пожадливіший, марнославніший, вибагливіший, навіть жорстокіший і нелюдяніший - побував
серед людув коментарях посту в Телеграмі про те, як таксист в Одесі відмовився виключити російську музику.
А, аааа, тааак, зрозуміло, це має сенс, ось про що йшла мова!
“бо ж не слів треба триматись, а думки” / “ведь сохранять верность надо не словам, а мыслям”
(Лист IX)
Дякую, Сенеко, дякую, бо далі буде моя інтерпретація того, що б ти мав на увазі зараз, і я їй буду вірний не менше буквального тлумачення (раптом мене запросять на битву гладіатора з левом, хто зна), і обидва припишу тобі.
Далі спробую зібрати думки на багато тем, які всі дотичні до тих самих проблем; не виключено, що як Сенека, так і інші авторитети-чи-не-дуже, яких згадуватиму, вважатимуть це сміттям, а мене - ідіотом, і цей пост зіпсує вам життя і спалить будинок.
Як часто буває в цьому блозі, цей пост має допомогти як мінімум мені7, все інше - бонус.
Caveat emptor, і за одно - lasciate ogni speranza voi, che entrate.
(Або: list of things that make life worth living but we can’t let people enjoy things, can we)
Три поста про різні речі, обожнюю всі три, рекомендую прочитати повністю разом з Сенекою:
Якщо ми забули, які бувають розваг, і хочемо ширший список, ніж гладіатори та вистави між ними, fear not. Ось список ігор, в які не грав Будда, вважаючи їх “cause for negligence”: List of games that Buddha would not play - Wikipedia. Сутра звідки це10 має ще список розваг:
“Or he might say: ‘Whereas some honourable recluses and brahmins, while living on food offered by the faithful, attend unsuitable shows, such as:
- shows featuring dancing, singing, or instrumental music;
- theatrical performances;
- narrations of legends;
- music played by hand-clapping, cymbals, and drums;
- picture houses;
- acrobatic performances;
- combats of elephants, horses, buffaloes, bulls, goats, rams, cocks and quails;
- stick-fights, boxing and wrestling, sham-fights, roll-calls, battle-arrays, and regimental reviews—
the recluse Gotama abstains from attending such unsuitable shows.’
Якщо і цього недостатньо, то ось моя власна спроба:
І тут питання наступне.
Життя коротке. Люди складні. Сенс мистецтва в тому, щоб давати комфорт тим, хто страждає, і викликати хвилювання чи хоча б сумніви в тих, у кого все добре.
А сенс цього посту - зробити так, щоб ті, хто думає, що в них все добре, помітили вогонь навколо, в якому згорає їх життя, болото, в якому вони повільно тонуть, і мох, який росте на них, і який з кожною хвилиною стає м’якішим і теплішим і затишнішим.
Життя коротке. Люди складні. Настільки складні, що конструкція “що ти хочеш хотіти” інтуїтивно зрозуміла, при відсутності складніших модальних дієслів які могли б передати всі відтінки “Я не хочу робити Х але все рівно роблю”.
Який же цікавий парадокс, що ми можемо свідомо робити те, що ми свідомо не хочемо робити.
Весь цей час, глибоко всередині, чи не сильно, є відчуття вічності, світла, розуміння, що всередині нас є частинка бога, що ми - людина, що ми можемо все. Є відчуття, що ми зраджуємо те вічне, що в нас. Що ми не були створені для бездумного поїдання lowest common denominator content.
Що нам соромно..?
Що навколо нас матриця, що світ навколо створений для того, щоб не дати нам побачити це вічне в собі, чи хоча б не тримати його у свідомості занадто довго. Що є способи звільнитися від без
Люди - єдина тварина, для якої її власне існування є проблемою.
Медитація солушн і спасіння, відсутність Ігор і людей спасіння
Inviting Mara to Tea (archived12)
Become Superhuman: Maximize Your Potential and Fulfill Your Destiny | The Art of Manliness
Social media, коменти в ТГ це як театр, culture of being offended
Потеря времени, илы воли, не приносит пользы
no SM во время отпуск привела к чувствам счастья, глубины, способность/желанию творить, убирать
lowest common denom content
задавати собі питання як глибоко читати теекст, викидати непотрібний щоб відчути нудьгу
задавати собі питання на які треба відповідь перед чтанням матеріалу
Время проходит, жизнь коротка, чашка чая
Factfulness, infornography,
Let people enjoy things
“When God says no, He is saying, ‘Don’t hurt yourself. ( Emerson Eggerichs)
Ні фіга собі куди гугл мене привів в пошуках джерела цієї цитати: https://kprf.ru/library/classics/fiction/3764.html ↩︎
Why Do All Online Recipe Blogs Start With a Long Life Story? | Good/Bad Marketing ↩︎
дякую Богу за досвід. Перший раз це було екзистенційно і катастрофічно, наступні рази вже було частиною карти і навіть зручними рисами по яким можна оцінити, де ти зараз, і часто до інших знаків. Зараз коли починаю забувати закрити кран чи холодильник це справді зручний дзвіночок і один з перших ↩︎
Візьму гріх на душу. Лист короткий і його можна прочитати цілком. Якщо немає книжки то цитати гугляться і ведуть до сторінок, де вони згадуються: Сенека вітає свого Луцілія! Питаєш, чого слід уникати передусім? Юрби. Тобі ще небезпечно стикатися з нею. - Google Suche ↩︎
Вже під кінець Нерон прирік його до самогубства. ↩︎
Наприклад: “Що правдиве, те - моє. Буду й надалі наводити тобі Епікура, щоб ті, які, сліпо тримаючись слів, зважають лише на те, хто говорить, а не що говорить, знали: все, бездоганно сказане,- спільне надбання.” (Лист XII) ↩︎
↩︎Непогано сказав ще хтось (немає певності, кому належить той вислів), коли запитали, навіщо так вигладжувати твір, якщо його візьме до рук заледве кілька читачів. «Мені досить кількох,- відповів він, - досить одного, досить, коли й жодного не буде». Славетним є і третій вислів - Епікура, що писав одному з товаришів, спільників у філософських заняттях: «Кажу це для тебе, а не для загалу: ми, один для одного,- багатолюдний театр» (Писав очевидно хто, в кінці того самого листа VII.)
Sabbath hard and go home — LessWrong / Sabbath hard and go home | Compass Rose ↩︎
релевантно (памʼятаємо все, що писав Сенека про фрази з мутних джерел):
↩︎⚡️ НАЧАЛОСЬ!
Также известное как “It’s Happening”. Эмоциональный бэкграунд всего околополитического интернета – дикое нервное ожидание того, что где-то наконец-то Ёбнет и Понесется.
Таким сегодня вечером оказалась ситуация в Сербии. Люди сегодня и открыто писали, что ситуация для них напоминает 24 февраля, в каком-то почти сладостном ожидании пиздореза. Пиздорез сегодня не выкинули, в телеграме пишут «сегодня спим». Но интересно то, что же влечет людей к этому бесконечному НАЧАЛОСЬ.
Разгадка, на мой взгляд, достаточно проста. Пресыщенные дофамином от массовых медиа люди ожидают того, что наконец-то их бахнет по ощущениям так, что прям УХ, и что после этого всё будет по-новому. Общий фон этого ожидания – ощущение мнимой бесперспективности бытовой жизни и надежда на Переворот. А дальше – каждый отстраивает на своих ощущениях.
The ‘new’ function in matplotlib for this is matplotlib.pyplot.bar_label — Matplotlib 3.8.0 documentation (ty Revisions to Display count on top of seaborn barplot [duplicate] - Stack Overflow):
ax = sns.histplot(df.langs_parsed)
#ax.set_xlabel("Language(s)")
#ax.set_ylabel("# of files")
for i in ax.axes.containers:
ax.bar_label(
i,
)
The second link has infos about barplot, catplot, and countplot too!
If the text goes over the limit and the light-gray background of seaborn’s theme or something, increase the limit as:
ylim = ax.axes.get_ylim()[1]
new_ylim = ylim + 300
ax.axes.set_ylim(0, new_ylim)
# you can also set padding of the labels in px and Text (https://matplotlib.org/stable/api/text_api.html#matplotlib.text.Text) properties:
for ax in g.axes.containers:
g.bar_label(ax, padding=-10,fontsize=5)
It includes a really cool list of corpora!
And at the end has a list of other such pages for other languages etc.
Also: deutschland · PyPI: “A python package that gives you easy access to the most valuable datasets of Germany.”
The LREC Author’s Kit prints all things in the .bib file and it uses \nocite{*}
for that.
The Internet from 2009 agreess that’s the way to go : Biblatex - Printing all entries in .bib file (cited and not)
Removing this line removes the printout.
Lastly, the link above shows printing separate bibliographies; the LREC Author’s kit does something different for the same:
\subsection{Language Resource References}
Language resource references should be listed in alphabetical order at the end of the paper.
\nocite{*}
\section{Bibliographical References}\label{sec:reference}
\bibliographystyle{lrec-coling2024-natbib}
\bibliography{lrec-coling2024-example}
\section{Language Resource References}
\label{lr:ref}
\bibliographystylelanguageresource{lrec-coling2024-natbib}
\bibliographylanguageresource{languageresource}
\newpage
doesn’t always work for well me in, esp. not in the IEEE and LREC templates. Either only one column is cleared, or there are issues with images/tables/… positions.
\clearpage
works for me in all cases I’ve tried.