Демонстрация технологий анализа и поиска текстовой информации RCO

<<На главную страницу RCO

Этот ресурс посвящен демонстрации технологий и перспективных решений, которые разработаны подразделением RCO Research Group компании "Гарант-Парк-Интернет" в рамках направления RCO по созданию средств автоматического анализа и поиска текстовой информации.

Демонстрация производится на базе выборки из 10 тыс. русскоязычных документов информационной системы "ИС Парк" по материалам периодической печати (МК-Новости, 1997 год).


Возможности поиска RCO

Здесь представлена демонстрация технологий поиска текстовой информации:



RCO TopTree: Авторубрикатор

Здесь представлена демонстрация технологии автоматического построения рубрикаторов на основе множества текстовых документов. Рубрикатор представляет иерархию главных тем и подтем, которые автоматически выделены в коллекции документов. Для построения рубрикатора использован агломеративный алгоритм кластерного анализа, который объединяет в рубрики документы близкого содержания, имеющие общие темы.
Получаемые результаты могут служить основой для построения более "строгих" классификаторов после предварительной корректировки экспертом, или же сразу использоваться в готовом виде - например, в качестве электронного глоссария.
Подобный рубрикатор, сформированный на базе эталонных текстов, может использоваться для автоматической классификации новых документов.



RCO TopTree: Тематические деревья

Здесь представлена демонстрация технологии построения рубрикаторов в реальном масштабе времени.
Множество документов, найденных в результате контекстного поиска, подвергается процедуре иерархической кластеризации, в ходе которой документы близкого содержания объединяются в тематические рубрики и строится дерево. Узлу дерева соответствует множество документов, которые имеют темы, указанные в названии рубрики.
Автоматическая рубрикация результатов поиска оказывается полезна в случае, когда поисковая машина возвращает сотни и тысячи документов. В подобной ситуации дерево рубрик позволяет быстро оценить тематический состав найденной информации и выбрать документы по интересующей тематике.



RCO TopNet: Тематические сети

Здесь представлена демонстрация технологии навигации по коллекции документов на основе ассоциативной семантической сети из ключевых тем текста, которая формируется автоматически при анализе текста.
Основное достоинства такого навигатора - это наглядность визуализации смыслового окружения интересующих тем и смысловых связей между ними.
Семантическая сеть может использоваться для аналитических целей: фильтрации информации в новостном потоке, выявления в тексте упоминаний об известных и неизвестных объектах (персонах, организациях, событиях) и подкреплений их взаимосвязей.



RCO TopSOM: Тематические карты

Здесь представлена демонстрация технологии автоматической кластеризации документов на основе саморганизующихся тематических карт TopSOM.
Все множество документов разбивается на небольшое количество классов близких по содержанию документов, которые отображаются на плоскость таким образом, что близкие классы соответствуют близким областям плоскости (по возможности). При этом нейросетевым алгоритмом решается задача нелинейного отображения многомерного семантического пространства в пространство малой размерности.
Такое отображение позволяет наглядно изобразить тематический состав большой коллекции документов в целом (десятки тысяч текстов) и помочь пользователю сориентироваться в океане информации.



RCO TopLine: Тематические ряды

Здесь представлена демонстрация технологии построения временных тематических рядов.
Множество документов, найденных по запросу, подвергается анализу, в ходе которого для каждого интервала времени (например, месяца) в найденных документах выявляются ключевые темы и отображаются на временной шкале. Такое представление позволяет исследовать изменения тематики документов из новостного потока в течение выбранного периода - смену ракурсов, в которых фигурирует целевая проблема. Технология может быть полезна для аналитических целей: выявления ключевых объектов, связанных с запросом, и мониторинга их активности в прессе.



Наверх^
<<На главную страницу RCO




e-mail: rco@metric.ru
© 2002 www.metric.ru