- по времени
- по содержанию
- по цитированию источника
- кластеризация сообщений (поступающих по RSS), строится "матрица близости", работает с 85% точностью: склейки, переклейки и т.д.
- заголовок сюжета - наиболее хитрое событие: учитывается "ядерность", соответствует региону пользователя, актуальность фактов, информативность и читаемость. Принимает ли редактор участие?, не въехал - поправьте меня ) Заголовок отбирается по жирному источнику, которое чаще цитируется.
- Учитывается специализация изданий
- Учитывается рубрикация от источника
- Используются лексические запросы
- по принадлежности (географии) источника
- по выбору из текста (выхватывают "Киев" из сюжета)
- Учитывается фактор времени, ессно
- Динамика сюжета (когда в течение маленького разбега во времени несколько изданий освещают одно и то же событие)
- Интерес пользователей (учитывает запросы аудитории из поиска). Работают с этим, кстати, очень осторожно, но всё равно влияет на то, будет ли сюжет в топе. Ранжирование больше по выбору редакции, а не от читателей. Всё равно интересный подход.
- Цитируемость источника - на сколько материалы востребованы коллегами по цеху, на сколько издание авторитетно.
- Оперативность источника - технический показатель, по 2-месячной протяженности: на сколько часто источник мгновенно реагирует на события.
Дальше больше...
Знаете почему новости попадают под метку статей? не нужно писать их такими длинными :) локанично... к сожалению алгоритм яндекс.новостей анализирует размер и думает что это хороший аналитический материал. На маркировку изданий при этом робот внимание не обращает.

2009-06-21 17:56 (UTC)