Вы здесь

Обнаружение причинных связей в новостях Managing News

Подумайте о тех новостях, которые вы ежедневно отслеживаете. Для меня, одной из таких тем является тема социальных сетей. Ежедневно на эту тему публикуются тысячи статей с сотнями различных мнений. Возможно, среди этих тысяч статей и сотнях мнений появляется какой-то тренд — главное исследование о поиске работы, новой технологии или сервисе, о которых начинает шуметь блогосфера. Но как мне определить тенденции среди всех этих статей?

Здесь было бы удобно использование графиков. Когда вы смотрите на количество упоминаний слова в новостях и видите частоту его употребления в течение какого-то периода, вы можете сказать, что вот эта тема получает широкое освещение в медиа. Но частота употребления какого-либо слова ничего не говорит о том, почему оно получило такое внимание и здесь нужно учесть дополнительную информацию. Один из способов сделать это, учитывать вместе с какими другими словами оно употребляется.

Этот график показывает упоминания MySpace с 8 по 30 июля (данные с trendio.com). Можно заметить, что на графике есть выступ 27 июля, когда это слово было упомянуто 164 раза, но почему?

Обнаружение причинных связей в новостях Managing News

Мы работаем над инструментом, агрегатором Managing News, который позволит ответить на этот вопрос за несколько секунд. Managing News отслеживает ежедневные упоминания слов (называемые в сборке тегами) в медиа и составляет график их упоминания. Но как узнать, в связи с чем это слово стало упоминаться чаще? Что если видеть другие слова, которые упоминаются в этих статьях? Быстрый взгляд на связанные теги может помочь отфильтровать связанные слова и получить информацию о том, в связи с чем эта тема получила внимание.

Здесь может помочь такой сервис, как Yahoo Terms Extraction. Managing News использует его для того, чтобы назначать статьям теги и показывает ключевые слова, которые связаны со статьями. Всё это связывает термины друг с другом.

Давайте вернёмся к упомянутому примеру и узнаем, что случилось с MySpace 27 июля. Наиболее часто с MySpace употреблялись слова «сексуальный преступник», «генеральный прокурор», «Roy Cooper», «закон» и глава службы безопасности MySpace «Hemanshu Nigam». А что случилось 27 июля? Компания объявила об обнаружении и удалении 29 000 аккаунтов сексуальных преступников из своей сети (людей, которые нарушали правила MySpace).

Ассоциирование связанных тегов с горячими темами, также удобно для работы с темами, которые постоянно присутствуют в новостях, например, таких, как Ирак. Ирак мог бы быть ключевым словом для 2 000 статей, которые можно разделить на 75 различных тем. Используя связанные слова, можно исключить неинтересующие вас темы.

Эта и другие возможности скоро будут включены в Managing News. Мы работаем над лучшим извлечением ключевых слов и удобным показом данных по ключевым тегам.