https://blog.google/products/search/discovering-millions-datasets-web/
Поиск по миллионам датасетов
https://blog.google/products/search/discovering-millions-datasets-web/
Поиск по миллионам датасетов
Справили вчера 10 лет Opentraders!
http://project.opentraders.ru/51917.html
Перешел в Яндекс.Практикуме с курса Аналитика Данных на новый курс Data Science. Перед переходом составлял для себя табличку сравнения курсов на основе публичного описания учебных блоков. Эта табличка помогла мне принять решение.
https://towardsdatascience.com/a-gentle-introduction-to-exploratory-data-analysis-f11d843b8184
Статья с понятными шагами для исследовательского анализа данных:
1. What question are you trying to solve (or prove wrong)?
Start with the simplest hypothesis possible. Add complexity as needed.
2. What kind of data do you have?
Is your data numerical, categorical or something else? How do you deal with each kind?
3. What’s missing from the data and how do you deal with?
Why is the data missing? Missing data can be a sign in itself. You’ll never be able to replace it with anything as good as the original but you can try.
4. Where are the outliers and why should pay attention to them?
Distribution. Distribution. Distribution. Three times is enough for the summary. Where are the outliers in your data? Do you need them or are they damaging your model?
5. How can you add, change or remove features to get more out of your data?
The default rule of thumb is more data = good. And following this works well quite often. But is there anything you can remove get the same results? Start simple. Less but better.
По этим шагам наглядно разбирается датасет по пассажирам Титаника.
Спойлер: в конце побеждает CatBoost.
Эту инструкцию писал в комментариях к бесплатному курсу stepik Введение в математический анализ. Как я понял, инструкция оказалась полезной, т.к. продолжает собирать лайки и благодарности. Задача простая — из категории самых первых шажков в матанализе. Но часто спотыкание на таких задачах и приводит к забрасыванию всего курса. В частности, инструкцию написал, когда увидел такой комментарий к задаче: «Введение в математический анализ, первое задание и у меня сразу ступор. Мой внутренний начинающий математик забился в угол и заплакал :(«
ЗАДАЧА:
Найдите число членов последовательности $$x_n = {2n — 1\over 4n + 5}$$ , лежащих вне интервала $$({1\over 2} — {1\over 1000}, {1\over 2} + {1\over 1000})$$
ИНСТРУКЦИЯ ПО РЕШЕНИЮ:
Инструкция дается для обучающихся с учетом просмотра видео из курса, но подойдет и в том случае, если Вы почитали хоть что-то по теме (More …)
В прошлом году согласился стать модератором на популярном курсе по программированию на Python (рекомендую, замечательный бесплатный курс). Мне это нужно в первую очередь для того, чтобы самому Python не забывать. Потому что без практики кодинг довольно быстро приходит в увядание и от элегантного pythonic way вскоре остаются одни паскалевские операторы 🙂
В этой публикации я хочу оставить разбор одной простой задачки курса. Опять же делаю это для себя в целях быстрого воскрешения знаний. Просто так вышло, что меня попросили объяснить решение в курсе, что я и сделал. Оно у меня таким образом уже полностью выложено, но в закромах курса. Хотелось вы вывести его на белый свет.
Итак, задача звучит так: (More …)
Есть такой сервис для планирования задач Todoist.com
Я плотно использовал его в 2015-ом, в 2016-ом переходил на другие варианты (этот бесконечный поиск средства планирования). И вот в 2017-ом вернулся к его использованию. Прежде всего, потому что он очень прост в использовании, все делается с доступностью в один-два клика и минимум движений. Пожалуй, это самое важное качество для подобного сервиса.
В общем, прислал он мне недавно отчет по использованию. Довольно занятно посмотреть на прошедший год через такую призму ))
Надо умножить на 2 эти числа, т.к. по следующему скрину станет ясно, что в тудуист я вернулся только в середине года (More …)
(в моем случае было нужно для выполнения упражнений по SQL)
На первом курсе в вузе был факультативный курс по программированию ilab, там я фактически и научился программировать. Но самые нужные знания мне дали онлайн-курсы на stepik.org. В работе мне часто помогают конспекты
Александр Кукуев, выпускник МФТИ, стажер, а затем программист в Mail.ru, статья
Некий Антон из обсуждения на stepik.org:
«Тренд, который будет существовать в 20е такой — либо ты автоматизируешь, либо тебя автоматизируют»
Трудно не согласиться.
Сегодня празднуем 8-летие OpenTraders ))
Hype cycle на графиках финансовых рынков
http://strategy.opentraders.ru/41293.html
Здесь только картинки выложу
Оригинальный родительский Hype cycle от Gartner для технологий:
1) Устанавливаем и активируем плагин https://ru.wordpress.org/plugins/oembed-gist/
2) Сохраняем наш notebook в файл *.ipynb, открываем его текстовым редактором, копируем содержимое файла
3) Идем на https://gist.github.com
4) Вставляем код из буфера, заполняем поле с названием файла, указываем расширение *.ipynb
5) Нажимаем кнопку Create public gist, код появляется на гите, ссылку на код теперь просто вставляем в наш пост на WP, после публикации ссылка автоматически подхватится и код опубликуется
Пример, как будет выглядеть, можно посмотреть по ссылке: http://kayumov.ru/401/
Ниже пример реализации на IPython градиентного спуска в рамках прохождения курса на Курсере для простой функции одной переменной с подробными комментариями. Т.е. вообще-то тема градиента предполагает хотя бы функцию двух переменных. Но начать, считаю, надо с одной переменной. Затем, когда суть понятна, тогда уже не помешает сделать решение для двух переменных, соответственно с трехмерными графиками. (More …)
К сожалению, набор на программу Анализ данных на степике прекратился (( Задумка была хорошая, насыщенная программа обучения от Института биоинформатики. В конце выдавался диплом о переподготовке, а прохождение программы было условием для поступление на магистратуру по биоинформатике. Есть вероятность, что закрыли временно.
Сами курсы, из которых состоит программа, кстати, остались доступными, включая проверочные задания + бесплатно + по многим в конце выдается сертификат.
От программы осталась очень полезная карта траектории прохождения курсов:
Я проходил отдельные курсы. За лето прошел два, на программу записаться так и не успел. Но нет худа без добра. Желание продолжать постигать Data Science никуда не делось и потому решил пройти одну из самых популярных программ по сабжу — специализацию «Машинное обучение и анализ данных» на курсере от Яндекса и МФТИ. С 4 сентября приступил к первому курсу (всего 6 курсов и финальный проект). (More …)
Reply