Статистика
Статистика — отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.
Содержание
Описательная статистика
Основные статистические показатели можно разделить на две группы:
- Меры среднего уровня дают усредненную характеристику совокупности объектов по определенному признаку
- Среднее значение
- Стандартная ошибка
- Стандартное отклонение
- Эксцесс
- Асимметрия
- Интервал
- Минимум
- Максимум
- Счёт
- Медиана
- Мода
- Квантиль
- Математическое ожидание
- Доверительный интервал
- Меры рассеяния показывают, насколько хорошо данные значения представляют данную совокупность
- Дисперсия случайной величины
- Среднеквадратическое отклонение
- Размах вариации
- Интерквантильный размах
- Среднее абсолютное отклонение
Статистический вывод
Статистический вывод (Statistical inference) — использование выборочной информации для получения некоторого представления о свойствах генеральной совокупности. На основе случайной выборки делаются предположения относительно генеральной совокупности, используя данные о ней. В более общем смысле, данные о некотором случайном процессе, полученные из его наблюдения в течение конечного промежутка времени. В статистическом выводе часто применяют статистические модели. Результатом статистического вывода является статистическое суждение, например:
- точечная оценка (point estimation) — число, оцениваемое на основе наблюдений, предположительно близкое к оцениваемому параметру.
- интервальная оценка (interval estimation) — пара чисел, оцениваемых на основе наблюдений, между которыми предположительно находится оцениваемый параметр.
- доверительный интервал (confidence interval, CI) — интервал, который покрывает неизвестный параметр с заданной надёжностью.
- отвержение гипотезы (rejection of a hypothesis).
- кластерный анализ (cluster analysis).
Математическая статистика
- Likelihood function
- Exponential family
Байесовский вывод
Байесовский вывод (Bayesian inference) — статистический вывод, в котором свидетельство и/или наблюдение используются, чтобы обновить или вновь вывести вероятность того, что гипотеза может быть верной.
Формула Байеса:
P(A|B)=P(B|A)P(A) / P(B)
где
- P(A) — априорная вероятность гипотезы A (смысл такой терминологии см. ниже);
- P(A|B) — вероятность гипотезы A при наступлении события B (апостериорная вероятность);
- P(B|A) — вероятность наступления события B при истинности гипотезы A;
- P(B) — полная вероятность наступления события B.
Статистические методы
- Регрессионный анализ (Regression analysis)
- Outline of regression analysis - Techniques for modeling and analyzing several variables, when the focus is on the relationship between a dependent variable and one or more independent variables
- Analysis of variance (ANOVA)
- General linear model
- Generalized linear model
- Оценка плотности (Density estimation)
- Kernel density estimation
- Multivariate kernel density estimation
- Временные ряды (Time series)
- Time series Analysis
- Box–Jenkins
- Frequency domain
- Time domain
- Мультивариантный анализ (Multivariate analysis)
- Метод главных компонент (Principal component analysis, PCA) - один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации.
- Факторный анализ (Factor analysis) — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.
- Кластерный анализ (Сluster analysis) — многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы
- Робастность (Robust statistics) — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
Теория вероятностей
- Probability
- Conditional probability
- Law of large numbers
- Центральная предельная теорема (Central limit theorem) - класс теорем, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.