Интерпретация результатов. представлении результатов на естественном языке, или в их визуализации в графическом виде.

Примеры средства анализа текстовой информации:

STATISTICA Text Miner — это дополнительное расширение программы STATISTICA Data Miner, предназначенное для перевода неструктурированных текстовых данных в данные, пригодную для принятия ответов. STATISTICA Text Miner разрешает извлекать из текста нужные эти, структурировать их и воображать данные в графическом виде (рис. 1). В качестве входных разрешённых можно использовать не только текстовые документы либо веб-страницы, но и файлы других типов. Программа снабжает доступ к текстовым документам в разных форматах, включая TXT, PDF, PS, HTML, XML, RTF и др.

Интерпретация результатов. представлении результатов на естественном языке, или в их визуализации в графическом виде.

Рис.1

«Галактика ZOOM» — это разработка динамического контент-анализа. Она разрешает строить информационные портреты объектов по любой текстовой информации, в частности по сообщениям СМИ. Таковой портрет складывается из статистически выражений и значимых слов, сопровождающих упоминание объекта.

«Галактика ZOOM» снабжает поиск в информационных массивах с применением языка запросов, и контекстный либо тематический поиск информации с учетом морфологии.

На рис. 2 продемонстрирован пример «изучение — словосочетания и» — информационный портрет слова, отражающие информационное содержание объекта. Неповторимой изюминкой совокупности «Галактика ZOOM» есть умение выявлять словосочетания документа и значимые слова, отражающие его суть. Программа разрешает уточнить запрос, выбрав слово/словосочетание для включения (колонка «И») либо исключения (колонка «И НЕ»).

Интерпретация результатов. представлении результатов на естественном языке, или в их визуализации в графическом виде.

Рис. 2. Пример работы «Галактика ZOOM»

Web Mining — это применение способов интеллектуального анализа данных для автоматического обнаружениявеб-услуг и документов, извлечения информации из выявления-и веб ресурсов неспециализированных закономерностей вИнтернете.

В Web Mining возможно выделить следующие этапы:

  • входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);
  • этап предобработки (англ. preprocessing stage) — эти представляются в форме, нужной для успешного построения той либо другой модели;
  • этап моделирования (англ. pattern discovery stage);
  • этап анализа модели (англ. pattern analysis stage) — интерпретация взятых результатов.

Это неспециализированные шаги, каковые нужно пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. Поэтому выделяют разные категории Web Mining:

  • Web Content Mining;
  • Web Structure Mining;
  • Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов либо их описания, дешёвых в сети. Поиск знаний в Интернете есть сложной и трудоемкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, интеллектуального анализа и машинного обучения данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в сети. Данное направление разглядывает связи между веб-страницами, основываясь на связях между ними. Выстроенные модели смогут быть использованы длякатегоризации и поиска схожих веб-ресурсов, и для распознавания авторских сайтов.

Web Usage Mining (Анализ применения веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными либо купленными в следствии сотрудничества с одним либо несколькими веб-сайтами. Это направление основано на извлечении данных из логов веб-серверов. Целью анализа есть обнаружение предпочтений визитёров при применении тех либо иных ресурсов сети Интернет.

Примеры:

Задача Выдавать ли кредит клиенту? при помощи способов Data Mining решается следующим образом. Совокупность клиентов банка разбивается на два класса (вернувшие и не вернувшие кредит); на базе группы клиентов, не вернувших кредит, определяются главные черты потенциального неплательщика; при поступлении информации о новом клиенте определяется его класс (вернет кредит, не вернет кредит).

Задача привлечения новых клиентов банка.

Посредством инструментов Data Mining допустимо совершить классификацию на более удачных и менее удачных клиентов. По окончании определения самый выгодного сегмента клиентов банку имеется суть проводить более активную маркетинговую политику по привлечению клиентов конкретно среди отысканной группы.

Clementine- Приложение применяет инновационные методы вывода для восстановления определения обхода и путей пользователей пользовательских сессий. Расширенныйалгоритмы web-mining выявляют перемещение пользователей через сайт. Конечным результатом есть коллекция полезных шаблонов просмотра, каковые оказывают помощь лучше осознать веб-мастеров поведения пользователей.

WebLog- Средство анализа владеющее полным доступом к изданию. Он разрешает отслеживать активность на вашем сайте за месяц, семь дней, час и день, отображая итоговые значения показов, переданных байт и просмотров страниц, и отслеживает самые популярные страницы.

Analog- Аналог программы для анализа логов с веб-сервера. Она скажет вам, какие конкретно страницы являются самые популярными, страны, обитатели которых посещают сайты, конечно какие конкретно сайты они просматривали, неисправные ссылки и т.д.

ПЕРЕЧЕНЬ ЛИТЕРАТУРЫ

1. Рыбина Г.В. Базы построения интеллектуальных совокупностей/ Г.В. Рыбина-М.:статистики и Финансы. 2010. – 432с.

2. Сергушева С. В. Комплексный анализ текста/ С. В. Сергушева – СПб. : Изд-во СПбГУ, 2007. – 220 с.

3. vnutrislova.net: научная электронная библиотека [Электронный ресурс].– Режим доступа : http://vnutrislova.net/, вольный. – Загл. с экрана.

4. Берновский Ю.Н. документов идентификации и Основы продукции: учебное пособие/ Ю.Н. Берновский — М.: Юнити-Дана, 2012 г.

Visualizing the Riemann hypothesis and analytic continuation


Интересные записи:

Понравилась статья? Поделиться с друзьями: