yakov_a_jerkov: (Default)
[personal profile] yakov_a_jerkov
Примерно неделю назад у меня состоялся разговор с популярным ЖЖ-пользователем [livejournal.com profile] sapojnik. Разговор начался с обсуждения дела Стросс-Кана, потом по касательной перешел на обсуждение вероятностей, обычная для ЖЖ беседа, короче говоря.

В результате этой беседы выяснилось, что сапожник вообще не понимает, что такое вероятность. Точнее, это я для себя выяснил (сапожник считает, что понимает, причем лучше, чем я); а сапожник выяснил, что я являюсь совком (я сам так не считаю). В общем, расстались мы довольные друг другом.

По ходу дела сапожник сообщил, что заключил пари с неким неизвестным мне ЖЖ-пользователем на сумму аж в 500 евро. Сапожник ставил на то, что процесса не будет что ли. Что значит процесса не будет -- дело темное, и, естественно, ничего из этого пари не вышло. Спорить на деньги с людьми, которые обычно на деньги не спорят -- это вообще себе дороже, кстати говря.

Но вопрос о котировках остается. Плюс, меня [livejournal.com profile] mnvyy в этой ветке спросил не знаю ли я сайта, где бы принимали ставки на исход дела Стросс-Кана. Я думаю, что это многим интересно.

Я уже много раз ссылался на "биржу" intrade.com -- это, пожалуй, лучшее место если хочется просто посмотреть на оценки исходов не спортивных событий, а разной политики и около того. Так вот Стросс-Кан:
Стросс-Кан будет признан виновным по, как минимум, одному из предьявленных пунктов обвинения -- 86.9%
Исход "не будет признан" включает в себя также и вариант, при котором до суда дело вообще не дойдет.

Несколько предостережений. Я не знаю, насколько активно ставят на intrade.com, что может влиять на точность котировок. Фактором при определении котировок является не только оценка вероятности возможных исходов, но и (в большой степени) настроения игроков. То есть вот сейчас такое настороение, что те, кто считают, что ни по одному из пунктов обвинения Стросс-Кан не будет признан виновным, могут за каждый поставленный доллар выиграть примерно 6.5 долларов.

P.S. Кстати, котировки на избрание Обамы на второй срок -- 62%.

Re: :)

Date: 2011-05-25 03:57 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Так проблема-то, как Яков ниже ответил, не в том, что человек чего-то не знает, а в том, что он считает, что прав и объяснений слушать не хочет.

И раз уж мы об этом говорим, то что не так в процитированной фразе?

Re: :)

Date: 2011-05-25 04:51 pm (UTC)
From: [identity profile] brzhezinski.livejournal.com
То, что запрет на post-hoc analysis и "множественные анализы" (и требования их коррекции) и требование априорной гипотезы для проведения стат.анализа являются безумными фреквентистскими идеями, не имеющими никаких оснований в теоретической статистике.

Re: :)

Date: 2011-05-25 04:56 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Eh? Вы что-то там такое свое вычитали. Или я не понимаю ваших претензий.

Re: :)

Date: 2011-05-25 11:14 pm (UTC)
From: [identity profile] brzhezinski.livejournal.com
Хм, похоже у одного из нас дислексия, нет?

Претензий там нет, а так, наблюдение, в общем.

Re: :)

Date: 2011-05-26 01:37 am (UTC)
From: [identity profile] shvarz.livejournal.com
Похоже на то. Я перечитал еще раз ваш комментарий выше, но так и не понял, что вы хотели там сказать. Вы считаете, что статистика, сделанная по результату a posteriory что-то доказывает?

Re: :)

Date: 2011-05-26 02:28 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
я считаю, что доказательный вес результатов стат. анализа одинаков вне зависимости от того, когда (и, в частности, в какой именно момент: до зарождения гипотезы в чьём-либо мозгу или после), кем, и в каком расположении духа он проведён.

Re: :)

Date: 2011-05-26 10:53 am (UTC)
From: [identity profile] shvarz.livejournal.com
Это довольно оригинальная точка зрения. Не потрудитесь объяснить?

Re: :)

Date: 2011-05-26 07:31 pm (UTC)
From: [identity profile] brzhezinski.livejournal.com
На самом деле, это типичная точка зрения в рамках байесовской парадигмы. Эта парадигма признаёт понятие "разум учёного", а стат.анализ лишь "трансформирует" данные, т.е. переводит их форму удобную для оценки их влияния на степень убеждения в верности гипотезы, влияния на разум учёного. Всё, что требуется от стат.анализа - это чтобы он был проведён без ошибок (ну, и естественно, необходимо, чтобы исследование, в ходе которого данные были собраны, также было проведено без ошибок), а такие вещи как кто, где, когда и зачем произвёл стат.анализ - всё это абсолютно иррелевантно, т.к. степень влияния его результатов на степень убеждения в верности гипотезы от всего этого не зависит.

В фреквентизме нет концепта "разум (мозг) учёного", т.к. он подразумевает субъективность, что в рамках этой парадигмы неприемлимо. Однако как только дело начинает касаться "множественных гипотез" или гипотез сформулированных до или после анализа данных, фреквентисты внезапно начинают апеллировать к этому "несуществующему" концепту, потеряв всё последовательность.

Re: :)

Date: 2011-05-26 09:16 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Ну, я в байсовской статистике действительно не силен, но вот в википедии, например, пишут:
"Bayesian inference uses a numerical estimate of the degree of confidence in a hypothesis before any evidence has been observed, and then it calculates a numerical estimate of the degree of confidence in the hypothesis after a set of evidence has been observed." (выделение мое)

То есть не так уж он в этом отличается от фреквентистской: Предполагается существование двух состояний - до сбора данных и после. Если же дополнительных данных не собрано (а гипотеза сформулирована по уже существующему набору), то получается, что байесовскую статистику тоже делать бессмысленно или невозможно. Что не так?

Re: :)

Date: 2011-05-27 03:23 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
Само собой, одни и те же данные нельзя использовать дважды для обновления степени убеждения в верности гипотезы, но здесь речь не об этом. У каждого человека есть (имплицитно или эксплицитно) априорная степень убеждения в верности той или иной гипотезы, и любые новые данные (при условии их валидности) могут быть использованы для её обновления вне зависимости от того, насколько верил в эту гипотезу (или вообще, имел ли о ней какое-либо понятие) человек, который непосредственно произвёл стат.анализ.
Причина, по которой результаты многих подобных post-hoc анализов и data dredging очень часто оказываются "ложноположительными" заключается не в том, что такой стат.анализ бессмысленен сам по себе, а в том, что априорная вероятность верности соответствующих гипотез очень мала, так что вероятность остаётся достаточно малой и после обновления степени убеждения в свете новых данных.

Re: :)

Date: 2011-05-27 05:36 pm (UTC)
From: [identity profile] shvarz.livejournal.com
Несколько, наверно, отвлекаемся от темы, но все же:
априорная вероятность верности соответствующих гипотез очень мала, так что вероятность остаётся достаточно малой и после обновления степени убеждения в свете новых данных

Как так? Если априори я выдвигаю гипотезу, вероятность которой в свете существующих данных мала, делаю эксперимент и получаю согласующиеся результаты, то почему вероятность ее верности не увеличивается?

Вообще, может лучше на каком-нибудь простом примере разобрать?
Типа: Имеем довольно длинную последовательность результатов бросания кубика. В одном варианте, я, основываясь на каких-то предварительных данных (не видя этой последовательности), считаю что кубик не "честный" и на нем никогда не выпадает 1. Смотрю на полученную последовательность и вижу, что 1 действительно не выпало ни разу, при этом статистика (фреквентистская) говорит мне, что для этого результата p=0.01. В такой ситуации я считаю, что данный эксперимент мою гипотезу подтвердил.
Во-втором варианте я не имею никаких особых предположений о кубике, смотрю на результат и вижу, что там нет ни одной 1, и тогда формирую свою гипотезу. Фреквентистскую статистику для этой гипотезы сделать можно и она все так же покажет p=0.01, но этот результат никоим образом (на мой взгляд) не подтверждает мою постериорную гипотезу.

Вот, собственно, и все, что я хотел сказать приведенным вами выше параграфом (вернее даже не я, а автор по ссылке, я лишь перевел).

Если вы не согласны, то объясните почему. Разберите, например, эту же ситуацию с точки зрения байесовской статистики.

Re: :)

Date: 2011-05-28 01:25 am (UTC)
From: [identity profile] brzhezinski.livejournal.com

Как так? Если априори я выдвигаю гипотезу, вероятность которой в свете существующих данных мала, делаю эксперимент и получаю согласующиеся результаты, то почему вероятность ее верности не увеличивается?

Нет, я не сказал, что вероятность её верности не увеличивается - она увеличится, но всё равно может остаться малой (например, вероятность верности могла быть 0.0001 до эксперимента, и она может возрасти до 0.001 после эксперимента).

Имеем довольно длинную последовательность результатов бросания кубика. В одном варианте, я, основываясь на каких-то предварительных данных (не видя этой последовательности), считаю что кубик не "честный" и на нем никогда не выпадает 1. Смотрю на полученную последовательность и вижу, что 1 действительно не выпало ни разу, при этом статистика (фреквентистская) говорит мне, что для этого результата p=0.01. В такой ситуации я считаю, что данный эксперимент мою гипотезу подтвердил.

Что именно значит выражение "данный эксперимент мою гипотезу подтвердил"? В каком смысле он её "подтвердил"? "Доказал"? Вы теперь уверены (после проведения этого эксперимента), что гипотеза верна?

Во-втором варианте я не имею никаких особых предположений о кубике, смотрю на результат и вижу, что там нет ни одной 1, и тогда формирую свою гипотезу. Фреквентистскую статистику для этой гипотезы сделать можно и она все так же покажет p=0.01, но этот результат никоим образом (на мой взгляд) не подтверждает мою постериорную гипотезу.

То, что вы не имеете никаких особых предположения о кубике не означает что вы ничего не можете сказать по поводу гипотезы о нечестности кубика (и, в частности, в отношении такого параметра, как частота выпадения 1). В байесовкой терминологии, ваше мнение об этом выразилось бы в виде ignorant prior distribution. Проведенный эксперимент позволит получить данные для обновления этого вашего мнения, приведя к posterior distribution, которое будет отличаться от prior тем, что вероятность верности гипотезы о нечестности кубика будет выше (возможно, гораздо выше), нежели до эксперимента.

Заметьте, что формулирование гипотезы (а также выражение мнения по поводу её верности) совершенно не требует знаний ни о результатах эксперимента (включая стат.анализ данных), ни даже о его существовании.
Каждый из нас может сейчас сесть и сформулировать миллиарды разнообразных гипотез, причём с ненулевой вероятностью их верности.

Re: :)

Date: 2011-05-29 04:44 am (UTC)
From: [identity profile] shvarz.livejournal.com
Знаете, я перечитал сейчас эту ветку еще на раз и должен признать, что либо я тупой, либо вы объяснять не умеете (можете оценить вероятность обоих гипотез в байесовских терминах). Потому что я вижу лишь разногласие в терминах, а не в смысле. И там и там есть большая разница между a priory defined статистическим анализом и post hoc статистическим анализом. Post hoc анализ по определению слабее, что и говорилось в исходном тексте. Если какие-то разногласия у нас и есть, то они довольно таки эзотерические (в контексте обсуждаемого вопроса) и я бы не стал сравнивать их с разногласиями Якова и сапожника - там совсем другой уровень.

Re: :)

Date: 2011-06-02 12:38 am (UTC)
From: [identity profile] brzhezinski.livejournal.com
Вы не тупее меня. Скорее, я действительно не очень доходчиво объясняю; ну, и, возможно, у вас развился некоторый mental block на эту тему, обусловленный постоянным пребыванием в фреквентистской среде.

Кстати, вот сейчас наткнулся на статью (хотя сам не прочитал ещё), которая, похоже, касается этих вопросов, так что, может, посмотрите на досуге, если будет интерес:

http://www.lifesci.sussex.ac.uk/home/Zoltan_Dienes/Dienes%202011%20Bayes.pdf

Profile

yakov_a_jerkov: (Default)
yakov_a_jerkov

July 2025

S M T W T F S
   1 2 3 45
6 7 891011 12
13 1415 16 17 1819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 19th, 2025 03:15 am
Powered by Dreamwidth Studios