@ARTICLE{33704756_941837579_2024, author = {Д. С. Глебова and П. А. Дегтярёв}, keywords = {, вовлечённость персонала, факторы вовлечённости сотрудников, автоматизация процесса контент-анализа, универсализация категорий, обработка естественного языкаклассификация с несколькими метками}, title = {Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала}, journal = {Организационная психология}, year = {2024}, volume = {14}, number = {2}, pages = {80-111}, url = {https://orgpsyjournal.hse.ru/2024-14-2/941837579.html}, publisher = {}, abstract = {Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) — «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутрен-ней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.}, annote = {Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) — «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутрен-ней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.} }