Мы создали нашу IDE с открытым исходным кодом для NLP, ориентированного на данные, исходя из того, что ученые и инженеры, изучающие данные, лучше всего знают, какой фреймворк они хотят использовать для построения своих моделей. Сегодня мы покажем вам три новых адаптера для SDK.
Давайте сразу перейдем к делу.
Обнимающееся лицо
Трансформаторные модели — это, пожалуй, один из самых интересных прорывов в обработке естественного языка. С Hugging Face у вас есть доступ к множеству предварительно обученных моделей. Однако, в конечном счете, вы хотите настроить их в соответствии с поставленной задачей. Именно здесь в игру вступают наборы данных Hugging Face, которые вы можете легко создать с помощью нашего адаптера.
Набор данных представляет собой объект Hugging Face-native, который вы можете использовать для настройки данных следующим образом. Это может выглядеть следующим образом:
В документации по Hugging Face есть несколько дополнительных примеров того, как настраивать модели.
Sklearn
Армейский нож машинного обучения. Скорее всего, вы уже работали с ним, и если да, то вам наверняка нравится богатство алгоритмов, из которых можно выбирать. Нам тоже, и поэтому мы решили добавить интеграцию с Sklearn. Вы можете получить данные и обучить модель следующим образом:
Объект данных уже содержит сплиты train и test, полученные из слабо контролируемых и вручную маркированных данных. Теперь вы можете полностью сосредоточиться на настройке гиперпараметров и выборе модели. Мы также настоятельно рекомендуем ознакомиться с Truss, библиотекой с открытым исходным кодом для быстрого обслуживания этих моделей. Мы расскажем об этом в отдельной статье.
Rasa
Если вы хотите создать чат-бота или разговорный ИИ, Rasa, вероятно, является одним из первых вариантов с ее сильной основой и сообществом. Нам нравится создавать чат-ботов с помощью Rasa, и мы уже рассказывали о том, как это сделать, в серии статей на YouTube. Сейчас мы представим вам адаптер rasa для нашего SDK, с помощью которого вы сможете легко создавать обучающие данные для своего чатбота.
Это позволит вам напрямую получить обучающие данные в формате YAML, готовые для обучения вашего чатбота. Таким образом, вы сможете управлять и поддерживать все данные чата в Refinery и иметь их под рукой готовыми для обучения чатбота.
Вы видите, мы уже рассказали о некоторых интеграциях с NLP-фреймворками с открытым исходным кодом. Если вы упустили какую-то из них, пожалуйста, сообщите нам. Мы будем рады постоянно добавлять их, чтобы сократить разрыв между созданием обучающих данных и построением моделей.
Если вы еще не опробовали refinery, обязательно загляните на наш GitHub. Кроме того, присоединяйтесь к нашему сообществу Discord — мы будем рады встретиться с вами там!