Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях, прежде чем попасть в проект.
Библиотека Pandas позволяет загружать, очищать и обрабатывать данные. Для этих целей подойдут и такие альтернативы, как SQL, но Pandas намного проще и удобнее.
- Установить библиотеку и узнать о ней подробнее можно здесь.
Во многих проектах по науке о данных, в том числе и в компьютерном зрении, наиболее важным типом являются массивы. Numpy, библиотека Python, позволяет обрабатывать их и эффективно применять к ним различные алгоритмы. Этот инструмент потребуется для работы с некоторыми другими библиотеками, упомянутыми в статье.
- Установить Numpy и изучить ее подробнее можно здесь.
Эта библиотека представляет собой набор инструментов для большинства типов моделей машинного обучения. Если вы работаете над проектом по МО, скорее всего, вам пригодится SciKitLearn.
- Здесь можно узнать подробную информацию об этой библиотеке и установить ее.
В науке о данных и МО популярны такие модели, как простые и глубокие нейронные сети. Они используются для разработки технологий компьютерного зрения и обработки естественного языка. Некоторые библиотеки Python предоставляют инструменты, необходимые для создания нейронных сетей.
Самый популярный из них — TensorFlow — может оказаться довольно трудным для новичков. Поэтому начать изучение лучше с Keras, интерфейса (API) для Tensorflow, который упрощает тестирование различных архитектур нейронных сетей и даже позволяет создавать собственные. В последнее время также набирает популярность PyTorch.
Большинство современных приложений, связанных с данными, работают с API (Application Programming Interface — интерфейс программирования приложений). Простыми словами, с его помощью можно запросить у сервера приложений доступ к базе данных или попросить его выполнить какую-либо задачу. Например, вы предоставляете API Карты Google два местоположения, а он возвращает продолжительность поездки между ними.
Библиотека Requests предназначена для связи с API и пригодится любому специалисту по данным.
- Подробности о Requests и установочный файл находятся здесь.
Важную часть в проектах по науке о данных составляет построение различных графиков. И хотя matplotlib — самая популярная библиотека Python, предназначенная для этих целей, более профессиональным, простым и гибким вариантом является Plotly. В ней доступно огромное количество типов графиков и инструментов для отображения. Кроме того, у Plotly более приятный дизайн.
- Изучить и установить Plotly можно здесь.
Когда дело доходит до пользовательского интерфейса, разработчику часто приходится выбирать между традиционным и сетевым вариантами. Первый можно создать с помощью таких библиотек, как PyQT и TkInter. Однако в большинстве случаев лучше разрабатывать веб-приложения, работающие в браузерах. Для этого понадобится библиотека, предоставляющая набор виджетов, например ipywidgets для Jupyter Notebook.
- Инструкция по использованию и установке ipywidgets находится здесь.
В завершение разберем одни из самых простых инструментов.
Набор ipywidgets работает Jupyter Notebook, который потребуется для создания приложения. Скорее всего, вы уже используете Jupyter Notebook для построения моделей и исследовательского анализа. Однако его можно применять и для фронтенд-разработки.
Также вам понадобится сторонний инструмент Voila, который скрывает весь код из Jupyter Notebook. При запуске проекта Jupyter Notebook через Voila он приобретает вид обычного веб-приложения. Вы также можете запустить эти инструменты через сервис AWS EC2 и получить доступ к своему продукту через интернет.
- Изучить и установить Voila можно здесь.
Читайте также:
Читайте нас в Telegram, VK и Яндекс.Дзен