Интеллектуальный анализ текста — различия между версиями

м (Способы обучения)
Строка 1: Строка 1:
'''Машинное обучение''' (англ. Machine Learning) — обширный подраздел искусственного интеллекта, математическая дисциплина извлекающая знания из данных.
+
'''Интеллектуальный анализ текстов''' (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. [[Data Mining]]), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с [[Хранилище данных|хранилищами]] и базами данных, а не электронными библиотеками и корпусами текстов.
  
Дисциплина машинного обучения использует следующие разделы:
+
[[Категория:AI]]
* математической [[Статистика|статистики]],
+
* численных методов оптимизации,
+
* теории вероятностей,
+
* дискретного анализа,
+
 
+
== Типы обучения ==
+
# '''Индуктивное обучение''' (Обучение по прецедентам) основано на выявлении закономерностей в эмпирических данных.
+
# '''Дедуктивное обучение''' предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области '''экспертных систем''', поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.
+
 
+
Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации (Information Extraction), интеллектуальным анализом данных ([[Data Mining]]).
+
 
+
== Способы обучения ==
+
* '''Обучение с учителем''' — для каждого прецедента задаётся пара «ситуация, требуемое решение»:
+
*# Метод коррекции ошибки
+
*# Метод обратного распространения ошибки
+
* '''Обучение без учителя''' — для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:
+
*# Альфа-система подкрепления
+
*# Гамма-система подкрепления
+
*# Метод ближайших соседей
+
* '''Обучение с подкреплением''' — для каждого прецедента имеется пара «ситуация, принятое решение»:
+
*# Генетический алгоритм.
+
* '''Активное обучение''' — отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ
+
* '''Обучение с частичным привлечением учителя''' (semi-supervised learning) — для части прецедентов задается пара «ситуация, требуемое решение», а для части — только «ситуация»
+
* '''Трансдуктивное обучение''' (transduction) — обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки
+
* '''Многозадачное обучение''' (multi-task learning) — одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»
+
* '''Многовариантное обучение''' (multiple-instance learning) — обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»
+
 
+
[[Категория:Дисциплины]]
+

Версия 11:29, 23 мая 2016

Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. Data Mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.