@ARTICLE{33704756_941837579_2024, 
	author = {Д. С. Глебова and П. А. Дегтярёв}, 
	keywords = {, вовлечённость персонала, факторы вовлечённости сотрудников, автоматизация процесса контент-анализа, универсализация категорий, обработка естественного языкаклассификация с несколькими метками},
	title = {Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала},
	journal = {Организационная психология},
	year = {2024},
	volume = {14},
	number = {2},
	pages = {80-111},
	url = {https://orgpsyjournal.hse.ru/2024-14-2/941837579.html},
	publisher = {},
	abstract = {Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) &mdash; «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутрен-ней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.},
	annote = {Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) &mdash; «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутрен-ней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.}
}