Применение искусственного интеллекта для ранней диагностики и прогнозирования деменции

Компания МобиДев хотела бы выразить признательность и сердечно поблагодарить DementiaBank, который сделал эту работу возможной, предоставив набор данных.

Психические заболевания и болезни, вызывающие психические симптомы, довольно сложно диагностировать из-за неравномерного характера таких симптомов. Одним из таких заболеваний является деменция. Хотя вылечить деменцию, вызванную дегенеративными заболеваниями, невозможно, ранняя диагностика помогает уменьшить выраженность симптомов при правильном лечении или замедлить прогрессирование болезни. Более того, считается, что около 23% причин деменции обратимы при ранней диагностике.

Проблемы с общением и рассуждениями — одни из самых ранних признаков, используемых для выявления пациентов с риском развития деменции. Применение ИИ для обработки аудио и речи значительно улучшает возможности диагностики деменции и помогает выявить ранние признаки за несколько лет до развития значительных симптомов.

В этом исследовании мы расскажем о нашем опыте создания модели обработки речи, которая предсказывает риск развития деменции, включая подводные камни и проблемы в задачах классификации речи.

Методы обработки речи с помощью искусственного интеллекта

Искусственный интеллект предлагает ряд методов классификации необработанной аудиоинформации, которая часто проходит через предварительную обработку и аннотирование. В задачах классификации аудио мы обычно стремимся улучшить качество звука и убрать все присутствующие аномалии перед обучением модели.

Если говорить о задачах классификации, связанных с человеческой речью, то, как правило, для извлечения значимой информации используются два основных типа методов обработки звука:

Автоматическое распознавание речи или ASR используется для распознавания или транскрибирования устных слов в письменную форму для дальнейшей обработки, извлечения признаков и анализа.

Обработка естественного языка или NLP — это техника понимания компьютером человеческой речи в контексте. Модели НЛП обычно применяют сложные лингвистические правила для извлечения значимой информации из предложений, определяя синтаксические и грамматические связи между словами.

Паузы в речи также могут иметь значение для результатов выполнения задачи, а модели обработки звука могут также различать различные классы звуков, например

  • человеческие голоса
  • звуки животных
  • машинные шумы
  • окружающие звуки

Все вышеперечисленные звуки могут быть удалены из целевых аудиофайлов, поскольку они могут ухудшить общее качество звука или повлиять на предсказание модели.

КАК АИ ОБРАБОТКА РЕЧИ ПРИМЕНЯЕТСЯ ДЛЯ ДИАГНОСТИКИ ДЕМЕНЦИИ?

Люди с болезнью Альцгеймера и деменцией, в частности, имеют определенное количество коммуникативных проблем, таких как трудности в рассуждениях, проблемы с фокусировкой и потеря памяти. Нарушения в познании могут быть замечены в ходе нейропсихологического тестирования.

Если эти дефекты записаны на аудио, их можно использовать в качестве признаков для обучения модели классификации, которая найдет разницу между здоровым и больным человеком. Поскольку модель ИИ может обрабатывать огромные объемы данных и сохранять точность классификации, интеграция этого метода в скрининг деменции может повысить общую точность диагностики.

Системы выявления деменции на основе нейронных сетей имеют два потенциальных применения в здравоохранении:

Ранняя диагностика деменции. Используя записи нейропсихологических тестов, пациенты могут узнать о ранних признаках деменции задолго до того, как произойдет повреждение клеток мозга. Применение даже телефонных записей с результатами тестов представляется доступным и быстрым способом обследования населения по сравнению с обычным посещением врача.

Отслеживание прогрессирования деменции. Деменция — это прогрессирующее заболевание, а значит, ее симптомы имеют тенденцию прогрессировать и проявляться по-разному с течением времени. Классификационные модели для выявления деменции также можно использовать для отслеживания изменений в психическом состоянии пациента и изучения того, как развиваются симптомы или как лечение влияет на их проявление.

Итак, теперь давайте обсудим, как можно обучить реальную модель, и какие подходы представляются наиболее эффективными при классификации деменции.

Как обучить ИИ анализировать модели деменции?

Целью данного эксперимента было выявить как можно больше больных людей из имеющихся данных. Для этого нам нужна была модель классификации, которая могла бы извлекать признаки и находить различия между здоровыми и больными людьми.

Метод, используемый для обнаружения деменции, применяет нейронные сети как для извлечения признаков, так и для классификации. Поскольку аудиоданные имеют сложную и непрерывную природу с множеством звуковых слоев, нейронные сети превосходят традиционное машинное обучение для извлечения признаков. В данном исследовании использовались 2 типа моделей:

  • Нейронная сеть репрезентации речи, которая учитывает извлечение особенностей речи (вкраплений), и

  • Классификационная модель, которая изучает паттерны на основе результатов извлечения признаков.

Что касается данных, то для обучения модели используются записи нейропсихологического обследования Cookie Theft.

Источник изображения: researchgate.net

В двух словах, Cookie Theft — это графическое задание, которое требует от пациентов описать события, происходящие на картинке. Поскольку люди, страдающие ранними симптомами деменции, испытывают когнитивные проблемы, они часто не могут объяснить сцену словами, повторяют мысли или теряют цепочку повествования. Все перечисленные симптомы можно обнаружить в записанном аудио и использовать в качестве признаков для обучения моделей классификации.

АНАЛИЗ ДАННЫХ

Для обучения и оценки моделей мы использовали набор данных DementiaBank, состоящий из 552 записей Cookie Theft. Данные представляют собой людей разного возраста, разделенных на две группы: здоровые и те, у кого диагностирована болезнь Альцгеймера — наиболее распространенная причина деменции. Набор данных DementiaBank демонстрирует сбалансированное распределение здоровых и больных людей, что означает, что нейронные сети будут учитывать оба класса в процессе обучения, без перекоса в сторону только одного класса.

Набор данных содержит образцы различной длины, громкости и уровня шума. Общая продолжительность всего набора данных составляет 10 часов 42 минуты при средней длине аудио 70 секунд. На этапе подготовки было отмечено, что продолжительность записей здоровых людей в целом короче, что логично, поскольку больные люди с трудом справляются с заданием.

Однако опора только на длительность речи не гарантирует значимых результатов классификации. Поскольку могут быть люди, страдающие от слабых симптомов, или мы можем стать предвзятыми к быстрым дескрипторам.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ

Перед реальным обучением полученные данные должны пройти ряд подготовительных процедур. Модели обработки аудиозаписей чувствительны к качеству записи, а также к пропуску слов в предложениях. Данные низкого качества могут ухудшить результат предсказания, поскольку модель может с трудом найти взаимосвязь между информацией, в которой часть записи испорчена.

Предварительная обработка звука подразумевает очистку от ненужных шумов, улучшение общего качества звука и аннотирование необходимых частей аудиозаписи. В набор данных Dementia изначально включено около 60% данных низкого качества. Мы протестировали подходы с использованием ИИ и без него для нормализации уровня громкости и уменьшения шумов в записях.

Модель Huggingface MetricGan использовалась для автоматического улучшения качества аудио, хотя большинство образцов не были достаточно улучшены. Кроме того, для дальнейшего улучшения качества данных использовались библиотеки обработки звука Python и Audacity.

Для аудио очень низкого качества могут потребоваться дополнительные циклы предварительной обработки с использованием различных библиотек Python или инструментов мастеринга аудио, таких как Izotope RX. Но в нашем случае вышеупомянутые этапы предварительной обработки значительно повысили качество данных. В ходе предварительной обработки были удалены образцы с наихудшим качеством, составившие 29 образцов (длительностью 29 мин 50 сек), что составляет всего 4% от общей длины набора данных.

ПОДХОДЫ К КЛАССИФИКАЦИИ РЕЧИ

Как вы помните, нейросетевые модели используются для извлечения признаков и классификации записей. В задачах классификации речи обычно используется два подхода:

  1. Преобразование речи в текст и использование текста в качестве входных данных для обучения модели классификации.
  2. Извлечение высокоуровневых представлений речи для проведения на их основе классификации. Этот подход является комплексным решением, поскольку аудиоданные не требуют преобразования в другие форматы.

В нашем исследовании мы используем оба подхода, чтобы посмотреть, как они различаются по точности классификации.

Еще одним важным моментом является то, что все экстракторы признаков обучались в два этапа. На первой итерации модель предварительно обучается самоконтролируемым способом на предтекстовых задачах, таких как моделирование языка (вспомогательная задача). На втором этапе модель настраивается на последующих задачах стандартным контролируемым способом с использованием данных, помеченных человеком.

Предтекстовая задача должна заставить модель кодировать данные в осмысленное представление, которое может быть использовано для последующей тонкой настройки. Например, модель речи, обученная самоконтролируемым способом, должна узнать о структуре и характеристиках звука, чтобы эффективно предсказать следующий звуковой блок. Эти знания о речи могут быть повторно использованы в последующих задачах, таких как преобразование речи в текст.

Моделирование

Для оценки результатов классификации модели мы будем использовать набор метрик, которые помогут нам определить точность вывода модели.

  • Recall оценивает долю правильно классифицированных аудиозаписей от всех аудиозаписей в наборе данных. Другими словами, recall показывает количество записей, которые наша модель классифицировала как деменцию.
  • Метрика Precision показывает, сколько из этих записей, классифицированных как деменция, действительно верны.

F1 Score использовался в качестве метрики для вычисления среднего гармонического из recall и precision. Формула расчета метрики выглядит следующим образом: F1 = 2*Recall*Precision / (Recall + Precision).

Кроме того, как и в первом подходе, когда мы преобразовывали аудио в текст, для подсчета количества замен, удалений и вставок между извлеченным текстом и целевым текстом используется коэффициент ошибок слова.

ПОДХОД 1: ПРЕОБРАЗОВАНИЕ ТЕКСТА В РЕЧЬ ПРИ КЛАССИФИКАЦИИ ДЕМЕНЦИИ

Для первого подхода в качестве экстракторов признаков были использованы две модели: wav2vec 2.0 base и NEMO QuartzNet. В то время как эти модели преобразуют речь в текст и извлекают из него признаки, модель HuggingFace BERT выполняет роль классификатора.

Текст, извлеченный с помощью wav2vec, оказался более точным по сравнению с результатом QuartzNet. Но, с другой стороны, wav2vec 2.0 потребовалось значительно больше времени для обработки аудио, что делает его менее предпочтительным для задач реального времени. Напротив, QuartzNet демонстрирует более высокую производительность благодаря меньшему количеству параметров.

Следующим шагом была подача извлеченного текста из обеих моделей в классификатор BERT для обучения. В конце концов, журналы обучения показали, что BERT вообще не обучался. Это могло произойти из-за следующих факторов:

  1. Преобразование аудио речи в текст означает потерю информации о высоте тона, паузах и громкости. Когда мы извлекаем текст, экстракторы признаков никак не могут передать эту информацию, в то время как учитывать паузы при классификации деменции очень важно.
  2. Вторая причина заключается в том, что модель BERT использует предопределенный словарь для преобразования последовательностей слов в лексемы. В зависимости от качества записи, модель может потерять информацию, которую она не может распознать. Это приводит к пропуску, например, неправильных слов, которые все же имеют смысл для результатов предсказания.

Пока этот подход не приносит значимых результатов, перейдем к подходу сквозной обработки и обсудим результаты обучения.

ПОДХОД 2: СКВОЗНАЯ ОБРАБОТКА

Нейронные сети представляют собой стопку слоев, где каждый из слоев отвечает за улавливание определенной информации. На ранних слоях модели усваивают информацию о необработанных звуковых единицах, также называемых низкоуровневыми аудиохарактеристиками. Они не имеют интерпретируемого человеком значения. Глубокие слои представляют более понятные человеку особенности, такие как слова и фонемы.

Сквозной подход подразумевает использование особенностей речи, полученных на промежуточных уровнях. В данном случае в качестве экстракторов признаков использовались модели представления речи (ALBERT или HuBERT). Оба экстрактора признаков использовались в качестве Transfer learning, в то время как модели классификации подвергались тонкой настройке. Для этих задач классификации мы использовали две пользовательские модели s3prl: классификатор на основе внимания, который был обучен на наборе данных SNIPS, и линейный классификатор, обученный на наборе данных Fluent commands, но в конечном итоге обе модели были доработаны на наборе данных Dementia.

Глядя на результаты выводов сквозного решения, можно утверждать, что использование речевых характеристик, а не текстовых, с точно настроенными моделями понижающей выборки привело к более значимым результатам. А именно, комбинация HuBERT и модели, основанной на внимании, показывает наиболее лаконичный результат среди всех подходов. В этом случае классификаторы научились улавливать релевантную информацию, которая может помочь отличить здоровых людей от людей с деменцией.

Для подробного описания того, какие модели и методы тонкой настройки были использованы, вы можете скачать PDF этой статьи.

Как улучшить результаты?

Учитывая два разных подхода к классификации деменции с помощью ИИ, мы можем вывести несколько рекомендаций по улучшению результатов моделирования:

Используйте больше данных. Деменция может иметь различные проявления в зависимости от причины и возраста пациента, так как симптомы в основном варьируются от человека к человеку. Получение большего количества образцов данных с речевыми представлениями деменции позволяет нам обучать модели на более разнообразных данных, что, возможно, приведет к более точной классификации.

Улучшить процедуру предварительной обработки. Помимо количества образцов, качество данных также имеет значение. Хотя мы не можем исправить начальные дефекты речи или фактической записи, использование предварительной обработки может значительно улучшить качество звука. Это приведет к тому, что при извлечении признаков будет теряться меньше значимой информации, что положительно скажется на обучении.

Изменение моделей. В качестве примера сквозной обработки можно привести различные модели, используемые в восходящем и нисходящем потоке, которые показывают разную точность. Использование различных моделей при классификации речи может привести к улучшению точности классификации.

Как показывают результаты тестирования, применение нейронных сетей для анализа аудиозаписей деменции может генерировать точные предложения. Обучение нейронных сетей для задач классификации речи — сложная задача, требующая знаний в области data science, а также знаний в области обработки звука.

Оцените статью
devanswers.ru
Добавить комментарий