Международный день Интернета

Друзья,

Сегодня – международный день Интернета! С чем мы Вас и поздравляем! 🎉

Что такое Интернет? Это океан информации, который окружает нас повсюду, и умение извлекать из нее полезные данные стало ключевым навыком. Сегодня мы разберем основные методы и инструменты, которые помогут вам эффективно работать с текстовой информацией в среде Engee. Мы рассмотрим два демо-примера, в которых в качестве референсного текста взяты сонеты Шекспира. 🎭

Первый демопроект расскажет вам о регулярных выражениях в Julia. Мы постарались подробно изложить, как их использовать, и сделали несколько небольших примеров по извлечению номеров телефонов и проверки email-адресов. И, конечно, попробовали применить способ регулярных выражений для анализа сонетов. В исходном тексте сонеты пронумерованы римскими цифрами. Мы создали пронумерованный в исходном порядке массив сонетов, чтобы можно было легко обратиться к любому из сонетов по индексу. Для этого мы реализовали функцию split_sonnet(). В ней мы использовали регулярные выражения для поиска, замены и совпадения шаблона в тексте, взяв для этого функции match(), occursin() и replace(). В результате у нас получился вектор сонетов из 154 элементов.

Во втором демопроекте основной задачей был подсчет частоты слов в сонетах. Для этого первым этапом мы подготовили текст. Разделили его на массив строк, где каждая строка содержит одну строку стихотворения. Далее мы удалили пустые строки, знаки препинания, пробелы в начале и конце каждой строки. А затем из полученного материала создали строковый массив из отдельных слов сонетов, используя split(). С помощью функций библиотек StatsBase.jl и Statistics.jl мы нашли уникальные слова и посчитали сколько раз встречается каждое уникальное слово. И выяснили, что чаще всего (490 раз) встречалось слово and.

Напоминаем, что мы встречаемся с вами уже в следующую среду в День Engee. Разработка РТС.