|
||||||||||||||||||||||||||||
Все права защищены и охраняются законом. Портал поддерживается При полном или частичном использовании материалов гиперссылка на http://ipim.ru обязательна! Все замечания и пожелания по работе портала, а также предложения о сотрудничестве направляйте на info@ipim.ru. © Интернет-портал интеллектуальной молодёжи, 2005-2024.
|
Алгоритм научного успеха05 сентября 2013 16:32
Ежегодную премию за публикационную активность Scopus Award Russia от одного из крупнейших научных издательств Elsevier в этом году получили шесть российских учёных. Один из них – Сергей Объедков, сотрудник отделения прикладной математики и информатики НИУ ВШЭ, который занимается разработкой алгоритмов компьютерного анализа понятий. Выборы во Франции, зародыши рыбок и красные ягоды на завтрак – корреспондент STRF.ru попробовал разобраться, как компьютер способен разложить по полочкам столь разные явления. Сергей, за какие работы сегодня дают премию Scopus Award Russia? – Как я понял, эту премию дают по совокупности работ, а они у меня все имеют отношение к одной области – формальному анализу понятий. Несмотря на несколько философское название, это раздел математики, ориентированный на приложения в области представления знаний и анализа данных. Исходным материалом являются некоторые данные об объектах. В простейшем случае это объектно-признаковые данные, но можно работать и с текстами, и, например, с графами. На основе данных мы выделяем понятия, группируем по ним объекты, строим иерархию понятий. Эта иерархия обладает определёнными свойствами и в математических терминах называется решёткой. Решётка понятий в конечном счёте способствует обнаружению скрытых закономерностей и облегчает навигацию по данным. А поскольку построение решётки и обнаружение закономерностей осуществляются более-менее автоматически, здесь можно говорить об искусственном интеллекте. Тем не менее интерпретация результатов, как правило, невозможна без участия эксперта в предметной области. Какие задачи можно решить с помощью такого подхода формального анализа понятий? – Самые разные. Например, совместно с французскими коллегами мы занимались анализом научных статей, посвящённых изучению жизненного цикла рыб, которые по-английски называются "zebrafish", а по-русски, кажется, "полосатый данио". Насколько я помню, эта рыба по ряду причин представляет большой интерес в частности для эмбриологов. В данной работе нам нужно было на основе текстов статей, без каких-либо специальных знаний, выявить основные темы исследований в этой области и связи между ними. Эксперт, с которым мы сотрудничали, посмотрев на полученную нами решётку понятий, сказал, что она вполне соответствует его представлениям о предметной области. Идеальный завтрак от компьютера Если так удачно получилось с эмбриологией, то можно как-то пофантазировать о создании универсальной программы для определения самых актуальных научных областей и автоматического распределения грантов? – Я не думал в этом направлении, но априори сказал бы, что подобные технологии здесь применимы. Они помогут получить достоверное представление о структуре научной области, а если ещё добавить динамический анализ – сравнить данные за предыдущие годы, посмотреть на тенденции, можно попробовать выделить и наиболее перспективные направления. Но я бы всё-таки использовал такие алгоритмы скорее для анализа корпуса существующих работ, для поиска аспектов и взаимосвязей, которые ускользают от учёных, нежели для автоматического распределения грантов. Хорошо, давайте тогда отвлечёмся от абстрактной наукометрии – где ещё может помочь формальный анализ понятий? – Приведу ещё один пример из собственной практики. В последнее время я занимаюсь задачами, связанными с моделированием предпочтений. Допустим, мы знаем, что персик нравится Пете больше, чем яблоко, а клубника – больше, чем груша. На основе этой информации мы хотим узнать о его предпочтениях относительно земляники и киви. Немного похоже на начало логической задачи или анекдота. – Тем не менее с подобной информацией о предпочтениях пользователей работают, например, различные рекомендательные системы в интернете. Первый шаг для решения такой задачи может быть следующим: перейти от предпочтений на объектах к предпочтениям на фрагментах их описаний, соответствующих некоторым понятиям. Например, клубника – красная и мягкая в отличие от яблока, которое зелёное и твёрдое, и так от клубники и яблока можно перейти к более общим понятиям – предпочитает ли Петя ягоды фруктам, красное зелёному или сладкое кислому. Получается, компьютер может выбирать за меня мой завтрак? – Это было бы преувеличением. Не выбирать, а рекомендовать подобно тому, как рекомендуют фильмы или книги в интернете. Правда, современные рекомендательные системы основаны главным образом на коллаборативной фильтрации, которая учитывает прежде всего предпочтения других пользователей и статистическую схожесть оценок. Подход же, про который я рассказываю, подразумевает анализ описаний фильмов, книг и прочих объектов рекомендации. Погоня на 10-й минуте фильма, мистический сон на 30-й – можно суммировать такие предпочтения и давать рекомендации. Сухой взгляд на демократию и свободу Я видел, что у вас есть работа, посвящённая исследованию демократии в России и других странах. – Думаю, вы говорите о работе по анализу рейтинга развития демократии, составляемому организацией Freedom House – мы с коллегами с кафедры публичной политики ВШЭ сделали доклад по этой работе на конференции в Бразилии. Там задача вот в чём. Freedom House просит экспертов поставить оценки странам по разным критериям – свобода выборов, свобода слова и т.д. Затем эти оценки соединяют, вычисляют некоторый интегральный балл и упорядочивают страны по степени развития демократии. Мы же попытались взять эту табличку с числовыми оценками и вместо усреднения построить многомерную иерархию стран, чтобы можно было увидеть: у этой страны проблемы с выборами, здесь не всё в порядке с правами человека – и дальше уже посмотреть, как соотносятся между собой эти проблемы. И какое место в такой демократической иерархии занимает Россия? – Мы рассматривали только страны из СНГ и бывшего социалистического блока, и здесь Россия оказалась одной из наиболее свободных среди стран, отнесённых Freedom House к категории несвободных. У нас получилось, что определяющим для принадлежности к этой категории является крайне слабая реализация принципа всеобщего равенства перед законом и существенное ограничение свободы ассоциаций. Вместе с тем "несвободные" страны довольно сильно отличаются друг от друга в том, что касается свободы слова и прав личности: если верить экспертам Freedom House, по состоянию на 2009 год ситуация с этими правами и свободами в России выглядела гораздо лучше, чем в некоторых других странах. А вот серьёзные проблемы с выборами являются общими для "несвободных" стран: оценки по соответствующему критерию у таких стран ниже, чем у всех прочих. Получается, ваш прогноз совпал с реальностью. В конце концов именно ситуация с выборами подтолкнула людей к протестным движениям? – Да, конечно, несвободные выборы инициировали протесты. Правда, хотя наша статья была написана в начале 2011 года, не помню, честно говоря, чтобы мы тогда прогнозировали протестные движения. Собственно, прогнозами мы тогда вообще не занимались. Здесь важно понимать, что мы основывались на оценках, выставленных экспертами Freedom House, и просто показали, какие зависимости в них присутствуют. Анализ этих зависимостей, их интерпретация, сопоставление с другими источниками и т.п. – дело исследователей в области политических наук. Наши методы позволяют исследователю по-новому взглянуть на имеющиеся данные, помогают в формировании гипотез, однако сами по себе обычно не дают окончательный ответ на интересующий учёного вопрос. Если же говорить о прогнозах, то что-то подобное у нас случилось в другой работе по политической тематике. Расскажите, пожалуйста, об этих удачных политических прогнозах. – С теми же самыми французскими коллегами мы обрабатывали данные по выборам первого секретаря Социалистической партии Франции в 2008 году. Там было шесть кандидатов и шесть текстов предвыборных программ. Мы провели довольно примитивный лингвистический анализ, отобрали ключевые слова, а потом построили решётку понятий. Довольно чётко выделились "левое крыло", "экологическое крыло" и, можно сказать, "мейнстрим" из трёх кандидатов. Каждый из этих троих получил в итоге по 25–28%, а выиграл единственный кандидат, оказавшийся связанным со всеми остальными в нашей решётке. Победительница, Мартин Обри, так или иначе затронула в своей программе все основные вопросы, стоявшие на повестке дня. Такой результат мы получили за день до голосования, но я бы не стал, конечно, преувеличивать значение и этого эксперимента. Логика научного успеха Какие у вас дальнейшие планы исследований? – Об одном направлении – анализе предпочтений – я уже рассказывал. А второе связано с обнаружением импликаций в данных, т.е. зависимостей вида "если – то": если объект обладает всеми признаками из множества A, то он обладает и всеми признаками из множества B. Есть немало вычислительных задач, связанных с импликациями и имеющих как теоретическое, так и прикладное значение, но в строгом смысле эффективных алгоритмов для поиска импликаций нет. И пока непонятно, могут ли они существовать в принципе. В следующем году в немецком Центре информатики им. Лейбница в замке Дагштуль (Schloss Dagstuhl – Leibniz-Zentrum für Informatik) будет проведён большой семинар, посвящённый этой области знаний. Я на него очень надеюсь, потому что традиционно на семинарах в Дагштуле цель участников – не просто рассказать о своих последних достижениях, как на обычных конференциях, а именно собраться вместе, обсудить текущее положение дел в некоторой научной области, зафиксировать открытые вопросы и общими усилиями попытаться получить на них ответы. Предпочтения в еде, выборы в Социалистической партии Франции, поиск абстрактных логических конструкций, подобных импликациям… Какое образование позволяет работать со столь разными проблемами? – Я окончил специалитет и аспирантуру РГГУ, где учился на отделении искусственного интеллекта факультета теоретической и прикладной лингвистики. Там у нас была насыщенная программа по логике, математике, программированию и одновременно увлекательные общие занятия с лингвистами. И вот такое сочетание в моём образовании гуманитарных и математических дисциплин, я думаю, мне было очень полезно: как-то это расширяет взгляд на мир. Но в нём нет ничего уникального – компьютерная лингвистика давно стала важной составляющей современной лингвистики, а разработка, например, систем машинного перевода или автоматического анализа текстов требует как хорошей подготовки в области математики и информатики, так и представления о том, как устроен язык. Можете вы тогда в терминах логических, можно сказать математических, описать нечто гуманитарное – сформулировать свой алгоритм успеха? Рассказать, как добиться публикационной активности, которая действительно впечатлит научную общественность. – Успех – понятие относительное. Мне было приятно получить награду, но всё же успех для меня не в том, чтобы произвести впечатление на общественность своей публикационной активностью (по нынешним меркам она у меня не такая уж и впечатляющая), а скорее в том, чтобы получить ответ на интересный и важный вопрос: придумать эффективный алгоритм, оценить вычислительную сложность задачи или, например, построить формальную модель, адекватно описывающую некоторые аспекты реального мира. Надеюсь, что-то из этого мне ещё удастся сделать, но надёжного рецепта успеха у меня нет, конечно, да и вряд ли он существует.
Петров Михаил
источник:
Последние материалы раздела
ОбсуждениеДобавить комментарийОбсуждение материалов доступно только после регистрации. |