Scientific.ru
Методика составления списков по индексу цитируемости российских ученых

1. Используемые данные

Мы используем базу данных Института научной информации (ISI), "Web of Science", содержащую ссылки, сделанные начиная с 1986 г. в реферируемых журналах довольно широкого списка , покрывающего практически все области науки. Основные российские научные журналы в этот список входят. В отличие от цитирующей работы,ограниченной списком журналов и временем, цитируемая работа не ограничена ничем. Ссылки переписываются в том виде в котором они сделаны, без какой-либо проверки и редактирования, включая частные сообщения и ссылки на неопубликованные работы. Естественно, попадают и ошибочные ссылки, каковых много.

База данных ISI является платной. Существуют другие базы данных по индексу цитируемости. Лучше всех организована Slac Spires, к тому же она бесплатная, но, в основном по физике высоких энергий. Физик высоких энергий, пользующийся Slac Spires, может оказаться разочарованным своим индексом по ISI, поскольку обычно он значительно меньше. Это происходит из-за ограничений на цитирующий источник, упомянутых выше. В Slac Spires таких ограничений нет, учитываются ссылки из препринтов и трудов конференций. Нашим основным аргументом в пользу ISI является то, что эта база данных равномерно покрывает все области науки, что принципиально важно при составлении подобных списков.

2. Подсчет индекса цитируемости

Фактически, то, что приводим в списках есть "грязный индекс": полное количество ссылок на работы, где данный человек фигурирует в качестве автора или соавтора. Индекс не делится на число соавторов, самоцитирования не вычитаются. Этот подход выбран не по принципиальным а по техническим причинам - он упрощает задачу более чем на порядок. Число соавторов доступно только для тех публикаций, которые обрабатываются ISI (т.е. журналы после 1986 г.) и его получение занимает довольно много времени (отдельный запрос на поиск для каждой работы). Конечно, "грязный индекс" хуже "чистого", т.е. отнормированного на число соавторов (хотя и это не очень хорошее решение - кто-то один скорее всего сделал больше половины работы), с вычетом самоцитирований. Однако, иначе мы бы просто не справились с задачей. В дальнейшем планируется попытка сделать списки по "чистому" индексу, ограничиваясь только теми цитируемыми работами, которые есть в ISI.

Особо стоит сказать о числе цитированных публикаций данного автора. Оно оказывается крайне неточным, точнее, завышенним из-за ошибочных ссылок. Например, на данную работу N сослались 100 раз. В трех случаях перепутана страница, в двух - год публикации, в двух неточно назван журнал. Каждая ошибочная ссылка при автоматической обработке идет отдельной строкой. Таким образом, если ошибки не повторяются, данная публикация засчитывается как 8, одна с 93 цитированиями, 7 по одному. Тем не менее, мы приводим суммарное число работ для примерной ориентировки.

3. Условия включения автора в списки лидеров по цитированию

Не будучи в состоянии дать чистый индекс цитируемости, мы установили простейший фильтр для тех, кто публикуется только в больших коллективах соавторов.

Единственная информация о соавторах, которую ISI выдает сразу - это является ли данный человек первым в списке соавторов или не первым. Наше условие заключается в том, чтобы человек получил минимум 300 цитирований в качестве первого автора для списка "> 1000" и минимум 30 для списка "> 100 за 7 лет". К сожалению, во многих областях придерживаются традиции алфавитного порядка, поэтому результат зависит от фамилии автора. Увы, "дешевого" и адекватного решения здесь просто не существует. Мы вообще не рассматривали большие списки соавторов крупных экспериментов по физике частиц. Они будут рассмотрены отдельно, как коллаборации, где индекс цитируемости будет присваиваться целой коллаборации, естественно, с указанием списка участников.

Особую проблему представляют вопрос - является ли данный человек российским ученым. Мы решаем его следующим образом: если автор указывал в течение двух последних лет в качестве одного из мест работы какой-либо российский институт, мы включали его, независимо от того где он фактически работает и живет. В противном случае - нет, даже если известно, что основную часть своей научной карьеры он сделал в России. Мы не уверены в том, что мы выбрали правильное решение, но пока остановились на этом.

4. Исходные списки

Очевидно, что мы не в состоянии проверить индекс всех российских ученых, не только потому, что их слишком много, но и потому, что их полного списка не существует. Чтобы сделать задачу решаемой надо ограничиться рядом исходных списков, в которые каким-то образом уже отобраны активные научнаы работники, вероятность высокого рейтинга которых выше средней. Во первых, это списки академиков (обработан) и член-корров (обрабатывается). Далее, мы используем составленный нами список российских авторов архива е-принтов xxx.lanl.gov. Он, правда, ограничивается физикой и математикой, поэтому данные пока сильно смещены в пользу физики и математики. Архив е-принтов также дает неоднородную выборку в пределах физ-мат наук: в физике высоких энергий и астрофизике публикации в архиве вошли в традицию, в физике твердого тела они приняты в меньшей степени и еще в меньшей в матаматике. Так, что мы пока пропускаем многих рейтинговых ученых даже в физике и математике.

Следующий очевидный этап, который мы планируем начать в феврале 2002 г. - составление и проход списка соавторов тех, кто уже попал в наши рейтинговые выборки. Так, по цепочке, вероятно удасться достаточно плотно охватить основной российский научный актив.