«Те, кто хорошо учится, не вступают в группы про гороскопы»

Иван Смирнов об исследованиях страниц школьников во «ВКонтакте» и неравенстве в «цифровом пространстве»

«Например, сейчас мы занимаемся построением моделей, предсказывающих уровень депрессии по записям во «ВКонтакте». Используя эту модель, мы можем выделить школы или университеты, в которых больше доля учащихся с депрессией, и попробовать понять, что отличает эти образовательные организации от других. А поняв это, можно попробовать улучшить ситуацию», — отмечает ведущий научный сотрудник Института образования ВШЭ Иван Смирнов. В интервью «Реальному времени» он рассказал о том, почему родители в своих постах чаще упоминают сыновей, чем дочерей, можно ли выкачать данные о миллионах пользователей «ВК» и верно ли предположение, что социальные сети приводят к деградации языка.

«Родители в своих постах во «ВКонтакте» чаще упоминают сыновей, чем дочерей»

— Иван, расскажите о ваших последних исследованиях и их результатах.

— Я занимаюсь исследованиями в области вычислительных социальных наук. То есть социальными исследованиями, но с использованием не только традиционных методов, таких как опросы, но и новых источников данных, например информации из социальных сетей, а также методов машинного обучения.

Сейчас я в основном занимаюсь исследованиями, связанными с психологическим благополучием учащихся, а до этого изучал неравенство в цифровом пространстве. Например, мы обнаружили, что родители в своих постах во «ВКонтакте» чаще упоминают сыновей, чем дочерей. Вообще, предпочтение сыновей хорошо известный феномен. В разных странах родители проводят больше времени с сыновьями, матери дольше кормят грудью мальчиков, а отцы чаще остаются в семьях, если у них сын, а не дочь.

Но до сих пор не было известно, находит ли это отражение в социальных сетях. На первый взгляд, может показаться, что это неважно, кто и что пишет во «ВКонтакте». Но с учетом того, что социальными сетями пользуется огромное количество людей каждый день, любой эффект многократно умножается. Тот факт, что о сыновьях говорят больше, может посылать неявный сигнал, что девочки менее достойны внимания, и это может негативно на них сказываться.

Я также смотрел на образовательное неравенство: чем отличается поведение в Сети учащихся с высокой и низкой успеваемостью.

Фото realnoevremya.ru/Олега Тихонова
На первый взгляд, может показаться, что это неважно, кто и что пишет во «ВКонтакте». Но с учетом того, что социальными сетями пользуется огромное количество людей каждый день, любой эффект многократно умножается

— То есть по постам и подпискам на группы в соцсетях можно отличить успешного школьника от троечника?

— Мы использовали методы машинного обучения, чтобы построить модели, предсказывающие по подпискам на группы в соцсети или по постам учащихся их успеваемость. Точность моделей получалась довольно высокая, например наиболее успевающих учащихся можно было отличить от наименее успевающих с точностью 90%.

Наиболее характерным для учащихся с низкой успеваемостью было то, что они состоят в группах, связанных с гороскопами, например группы «Необычный гороскоп» и «Любовный гороскоп», и используют в постах такие слова, как «овен», «зодиак» и т. п. Для детей с высокой успеваемостью было характерно то, что они, как правило, состоят в группах, связанных с наукой или чтением.

То же самое относится и к текстам постов, наиболее сильные предикторы высокой успеваемости — упоминания в постах фамилий писателей и ученых.

— Где, по-вашему, может пригодиться ваша модель, которая позволяет различать уровень школьников? Для рекламы?

Так как я занимаюсь исследованиями, то меня прежде всего интересует возможность использования модели в исследовательских целях. Сейчас единственным способом получить объективную и сопоставимую между разными школами оценку академической успеваемости являются стандартизированные экзамены (ОГЭ и ЕГЭ). Но эта информация обычно недоступна исследователям. Используя предсказательные модели, мы можем получить примерную оценку образовательных результатов пользователей и использовать ее для изучения факторов, связанных с ними.

Или, например, мы сейчас занимаемся построением моделей, предсказывающих уровень депрессии по записям во «ВКонтакте». Используя эту модель, мы можем выделить школы или университеты, в которых больше доля учащихся с депрессией, и попробовать понять, что отличает эти образовательные организации от других. А поняв это, мы можем попробовать улучшить ситуацию.

Данные о миллионе человек можно скачать с домашнего компьютера, при этом «ВКонтакте» размещает подробную документацию о том, как именно это делать

«Есть организации, регистрирующие огромное количество аккаунтов, чтобы скачивать всю информацию из «ВК» несколько раз в день»

— Как вы собираете информацию для своих исследований? Пользуетесь какими-то специальными программами?

— «ВКонтакте» предоставляет специальный публичный интерфейс, который позволяет скачивать открытую информацию из социальной сети. Этот же интерфейс используется разработчиками многочисленных приложений для «ВКонтакте». «ВК» устанавливает ограничения на количество информации, которое можно получить за один раз, но нам существующих лимитов хватает. Я знаю, что есть организации, которые регистрируют огромное количество аккаунтов, чтобы скачивать вообще всю информацию из «ВК» несколько раз в день. Но это является нарушением пользовательского соглашения, и мы так не делаем.

Уникальность многих наших исследований в том, что мы сочетаем опросные данные и данные из социальных сетей. То есть мы проводим анкетирование участников исследования, а потом спрашиваем у них разрешение скачать публичную информацию из их профилей. Это позволяет нам не просто использовать данные из социальных сетей, но и проверять их достоверность. Например, в одном из текущих исследований мы изучаем режим сна, используя информацию о времени написания постов. Без возможности совместить данные «ВКонтакте» с анкетными данными мы не смогли бы узнать, отражает ли время написания постов реальный режим дня.

— То есть любой человек может скачать данные миллионов людей? За это не нужно платить?

— Не нужно. Но есть те, кто продает данные или, чаще, результаты аналитики. И если нужно регулярно скачивать данные о пользователях «ВК» в больших объемах, то могут возникнуть расходы на вычислительные ресурсы и т.п. Но данные о миллионе человек можно скачать с домашнего компьютера, при этом «ВКонтакте» размещает подробную документацию о том, как именно это делать.

— Вы также взаимодействуете со школами. Они охотно идут на контакт и предоставляют данные учеников?

— Я работаю в Институте образования ВШЭ, и у нас есть сеть партнерских школ, заинтересованных в исследованиях. Обычно мы находим директора школы, которому интересно принять участие в исследовании, потом те учащиеся школы, которым это интересно, дают согласие вместе с родителями, после этого мы их опрашиваем. Это всегда довольно большая работа. Школе мы можем после этого предоставить аналитику в обобщенной и анонимизированной форме.

Еще мы хотим, чтобы самим учащимся тоже была какая-то польза. Сейчас мы работаем над тем, чтобы предоставлять им индивидуальную аналитику. Пока это могут быть просто любопытные факты — например, вы входите в топ 10% опрошенных по количеству лайков в «ВК». И мы рассказываем о результатах наших исследований. Если пользователи узнают о том, как много информации можно узнать о них по поведению во «ВКонтакте», это может повысить их цифровую грамотность.

Как и следовало ожидать, чем старше пользователь, тем выше средняя длина слова. Резкий рост наблюдается примерно до 23 лет, после чего изменения уже не такие сильные

«Вывод о том, что социальные сети приводят к деградации языка, не подтверждается объективными наблюдениями»

— Насколько сильна разница между детьми, которые подписаны на паблики с «приколами» и на научные группы?

— В одной из работ мы использовали результаты международного исследования PISA для оценки успеваемости учащихся. Преимущество перед школьными оценками в том, что это стандартизированное тестирование. То есть мы можем сравнить между собой учащихся разных школ и оценить, насколько велико различие между ними. По нашим оценкам, разрыв между подписанными на научные и литературные группы и теми, кто подписан на гороскопы и юмористические группы, соответствует двум годам формального обучения. Это очень большие различия.

При этом не стоит думать, что юмористические группы кого-то отупляют, а научные делают умнее. Если внимательно посмотреть на то, что в этих группах происходит, то можно заметить, что особых отличий нет. В научных группах часто публикуется то же, что и в ненаучных — смешные картинки. Только тематика у них специфическая. Скорее всего, наблюдаемые различия связаны с тем, что учащиеся по-разному себя позиционируют. Те, кто хорошо учится, не хотят вступать в группы про гороскоп и, наоборот, хотят, чтобы все видели, что они подписаны на научные паблики.

— Что вы можете сказать о постах, которые публикуют школьники? Может быть, они становятся примитивнее год от года?

— Я часто слышал, что современное поколение стремительно деградирует, особенно его язык, и все из-за того, что теперь все пишут в социальных сетях, где нет необходимости придерживаться литературных норм. И мне захотелось это проверить. Посмотреть я решил на то, как меняется сложность текстов в социальных сетях. Для измерения сложности текстов использовал среднюю длину слова. Это может показаться очень грубой оценкой, потому что легко можно придумать пример «глупого» текста с длинными словами и «умного» с короткими. Однако если мы берем огромное количество текстов, написанное большим числом пользователей (в моем случае размер выборки был один миллион), то в среднем эта величина хорошо работает.

Например, мы проверили, что чем сильнее школа, в которой учится пользователь, тем выше средняя длина слова в его или ее постах. Мы также обнаружили, что, как и следовало ожидать, чем старше пользователь, тем выше средняя длина слова. Резкий рост наблюдается примерно до 23 лет, после чего изменения уже не такие сильные. Когда мы посмотрели на то, как менялась сложность текстов за последние 10 лет, то обнаружили, что она непрерывно росла для всех возрастных когорт пользователей, причем независимо от того, когда они зарегистрировались в соцсети «ВКонтакте».

Так что выводы о том, что социальные сети приводят к деградации языка, не подтверждаются объективными наблюдениями.

Мальчики пишут больше постов ночью и больше негативных постов, а девочки пишут больше постов в целом и ставят больше лайков

— Какие различия между мальчиками и девочками вы отметили в ваших исследованиях?

— Обычно мы не изучаем специально различия между мальчиками и девочками, чаще мы сравниваем их просто для того чтобы убедиться, что наш анализ осмысленный. Например, мы видим, что мальчики чаще подписываются на группы, связанные с футболом и компьютерными играми, а девочки — на группы, связанные с внешним видом и красотой. Тут мы не делаем никаких открытий, но понимаем, что подписки отражают реальные характеристики пользователей.

Еще мы видим, что мальчики пишут больше постов ночью и что они пишут больше негативных постов, а девочки пишут больше постов в целом и ставят больше лайков. Эти и другие различия в поведении в соцсетях нужно учитывать при анализе данных.

Матвей Антропов
Справка

Иван Смирнов — кандидат наук, заведующий лабораторией вычислительных социальных наук, ведущий научный сотрудник Института образования НИУ ВШЭ.

ОбществоОбразование
комментарии 0

комментарии

Пока никто не оставил комментарий, будьте первым

Войти через соцсети
Свернуть комментарии

Новости партнеров