Главная E-mail Поиск по сайту
Построение байесовской сети для оценки надежности банка
 

С.И. Пшеничный — аспирант Финансовой академии при Правительстве Российской Федерации, начальник отдела финансового анализа и планирования Московской региональной дирекции ОАО «Уралсиб»
 
Байесовские сети хорошо зарекомендовали себя в задачах на проведение классификации данных и наблюдений. Их можно использовать для целей оценки надежности банка. В данной работе дано определение надежности банка с точки зрения вероятностного подхода, представлен пример байесовской сети, рассмотрен алгоритм ее построения. Приведен общий вид наивного байесовского классификатора. Представлен набор факторов, выделенных на основе обязательных отчетностей банков, а также способы их обработки для использования в байесовской сети.
Ключевые слова: надежность банка; байесовские сети; наивный байесовский классификатор; допущения наивного байесовского классификатора.

Доверие можно рассматривать в качестве явления, присущего современному обществу и имеющего сложные взаимоотношения с концепцией времени и, прежде всего, с будущим. Суть доверия применительно к банковской системе заключается в том, что люди обменивают реальные ценности на не обладающие этими характеристиками обещания выгоды в будущем. Клиенты ждут от банка, что тот выполнит все взятые на себя обязательства. По отношению к конкретному банку формируются ожидания, имеющие характер доверительных, если этот банк представляется надежным.
 
В байесовском подходе предполагается, что случайность есть свойство наблюдаемых событий, отражающее незнание наблюдателя. Любое случайное событие, таким образом, вытекает из незнания закономерностей его возникновения. Таким образом, надежность банка полагается случайной величиной. То есть надежность банка можно определить, как вероятность быть надежным, или вероятность того, что банк выполнит все взятые на себя обязательства. В рамках данного определения под надежностью банка полагается его нахождение в определенном состоянии — состоянии «надежного банка».
 
Байесовский подход заключается в переходе от априорной информации о системе к апостериорной с учетом наблюдений всех показателей системы.
 
Оценить неизвестный параметр системы означает найти апостериорное его распределение.

,

где m() — событие, состоящее в том, что была выделена информация из всего множества данных. Вероятности , в байесовском подходе называют априорными, их значения необходимо определить до начала проведения анализа из некоторых «особых» соображений. Вероятность  — это вероятность того, что исследуемый банк при отсутствии о нем какой-либо информации является надежным. Соответственно, вероятность  — это вероятность того, что исследуемый банк при полном отсутствии о нем какой-либо информации является ненадежным.
 
Так, надежность коммерческого банка будет определенным качеством банка. Можно проследить проявление данного качества в зависимости от значения других показателей и качеств банка. Иными словами, надежность банка будет исследоваться на определенных условиях.
 
Используя все факторы, описывающие работу банка и влияющие на его надежность, можно построить байесовскую сеть. Байесовская сеть или байесовская сеть доверия — это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей.
 
Байесовские сети доверия визуализируются как направленный ациклический граф. Байесовская сеть рассматривает все множество факторов системы в их взаимосвязях. На плоскости все факторы можно изобразить как узлы-вершины, а связи рассматриваемой системы могут быть отражены ребрами, соединяющими вершины в направлении влияния.
 
Для применения метода байесовских сетей к системе необходимо среди рассматриваемых элементов системы выделить структуру. Для организации сети необходимо выполнить следующие действия:
 
1)    сформулировать исследуемую проблему в терминах вероятностей и обозначить возможные значения целевых переменных;
2)    выбрать понятийное пространство задачи, определить переменные, имеющие отношение к целевым переменным, описать возможные значения этих переменных;
3)    выбрать на основе опыта и имеющейся информации априорные вероятности значений переменных;
4)    описать отношения «причина–следствие», как косвенные, так и прямые, в виде ориентированных ребер графа, разместив в узлах все рассматриваемые в системе факторы;
5)    для каждого узла графа, имеющего входные ребра, рассчитываются оценки вероятностей различных значений переменной этого узла в зависимости от комбинации значений переменных-предков на графе.
 
Построенная априорная байесовская сеть формально готова к использованию.
 
В контексте моделирования надежности коммерческого банка показатель надежности выступает в качестве целевого элемента системы. Пример байесовской сети для определения надежности банка представлен на рис. 1.
 
Рис. 1. Пример байесовской сети для надежности банка
 
На основе байесовской сети можно построить наивный байесовский классификатор:

,
где параметр — реализация каждой из  выбранных переменных.
В наивном байесовском классификаторе делается строгое предположение о независимости факторов между собой. Наивный байесовский классификатор является одним из самых эффективных способов обработки данных. Результаты классификации, полученные при применении наивного байесовского классификатора, могут удивлять, так как в повседневной жизни редко встретится ситуация, удовлетворяющая предположению о независимости параметров модели. Тем не менее наивный байесовский классификатор достаточно широко используется во многих областях [7].
 
Настройку байесовской сети для оценки надежности банка можно произвести на основе публикуемых официальных отчетностей коммерческих банков. К таковым относятся формы 101 и 102 — отчеты по балансу и отчеты о прибылях и убытках.
 
Первый шаг настройки сети: проведение априорной классификации банков на надежные и ненадежные. В данной работе предлагается в качестве априорного распределения на надежные и ненадежные банки учитывать факт отзыва лицензии у банка. Таким образом, если у банка была отозвана лицензия за рассматриваемый период, то банк относится к ненадежным.
 
По полученным группам надежности банков предлагается рассматривать следующие показатели.
1.       Собственный капитал.
2.       Активы.
3.       Отношение собственного капитала к активам.
4.       Норматив Н3, Н5.
5.       Отношение ссуд нефинансовым организациям к активам.
6.       Отношение долгосрочных ссуд нефинансовым организациям к активам.
7.       Отношение объема просроченных ссуд к объему ссуд нефинансовым организациям.
8.       Отношение объемов обязательств перед нерезидентами к активам.
9.       Отношение портфеля негосударственных ценных бумаг к активам.
10. Отношение объема портфеля государственных облигаций к активам.
11. Отношение объема доходных активов к активам.
12. Отношение кредитного портфеля частных клиентов к активам.
13. Отношение объема средств на счетах частных клиентов к активам.
14. Отношение объема средств клиентов к активам.
 
Многие из данных показателей согласно исследованиям [1] являются значимыми при определении надежности банка. Однако перед построением сети по множеству значений показателей для обеих групп надежности необходимо проверить значимость каждого показателя в целях упрощения топологии сети. Значимость каждого показателя можно проверить тестом Колмогорова–Смирнова[1]. Для построения байесовской сети используются только значимые показатели.
 
Вторым шагом необходимо исследовать взаимозависимость показателей. В байесовской сети, на основе которой строится наивный байесовский классификатор, необходимо использовать независимые друг от друга показатели, что требуют принятые предположения. Таким образом можно получить сеть для наивного байесовского классификатора.
 
Однако в реальной ситуации редко когда удается достичь независимости наблюдаемых показателей, но даже в этих случаях наивный байесовский классификатор будет эффективен при определении класса наблюдений. Проведенные наблюдения [5] это подтверждают. Такое возможно в связи с тем, что зависимость друг от друга факторов может склонять наивный байесовский классификатор к разным классам с одинаковой силой. Если тяготения к разным классам компенсируют друг друга, то наивный байесовский классификатор будет давать верный результат в определении класса, даже если оставить оба взаимозависимых фактора. Байесовскую сеть с взаимозависимостями называют расширенной байесовской сетью.
 
Третьим шагом можно провести предобработку данных, что частично перекликается с исследованием их взаимозависимости.
 
Для повышения точности классификатора можно провести процедуру дискретизации исходных наблюдаемых показателей. Вместо вычисления вероятностей, используя нормальный закон распределения, различными алгоритмами можно провести дискретизацию данных. К таким относятся разбиение непрерывного показателя на равных интервалов или разбиение на интервалы таким образом, чтобы в каждом из них было одинаковое количество наблюдений. Согласно [4] наилучшим методом дискретизации, повышающим точность классификатора, является метод, основанный на снижении энтропии. Набор наблюдаемых значений факторов сортируется, далее ищутся точки разрыва на интервалы таким образом, чтобы в каждый интервал попадало большинство значений одного определенного класса. Выбор точки разрыва происходит на основе расчета энтропии полученных разбиений.
 
Также существуют такие методы предобработки данных, как фильтрация и свертывания.
 
Методы фильтрации основываются на идее значимости факторов. Выбор факторов происходит без отношения к тому, какой классификатор будет использоваться. Каждому фактору присваивается определенный вес — метод фильтрации сводится к оцениванию данных весов. Для факторов, которые, возможно, нарушают предположение о независимости, устанавливаются меньшие веса, чем для факторов с независимым вкладом в классификацию.
 
Методы свертывания проводят поиск по факторам, используя точность процедуры классификации как оценку проведенной предобработки данных. Метод свертывания из двух зависимых друг от друга факторов выбирает один или заменяет оба фактора на общий составной показатель. В силу самой специфики построения метода свертывания он приводит к улучшению наивного байесовского классификатора. Процедура обработки входящей информации может производиться до тех пор, пока следующее изменение уже не будет давать улучшение точности классификатора.
 
Каждый из перечисленных методов работы с данными определяет конечный набор показателей, которые включаются в байесовскую сеть. Для целей определения надежности банка стоит выбрать тот вариант сети, который позволит провести более точную классификацию банков на надежные и ненадежные. Для этого часто необходимо проверить на тестовом множестве все выбранные варианты.
 
ЛИТЕРАТУРА
1.     A.H.O. van Soest, Peresetsky A.A., Karminsky A.M. An analysis of ratings of Russian banks // CentER discussion paper. N2003-85.
2.     Garg Ashutosh and Roth Dan. Understanding Probabilistic Classifiers. Department of Computer Science and the Beckman Institute University of Illinois, Urbana, IL. 61801, USA, ELM, 2001.
3.     Kononenko I. Comparison of inductive and naive Bayesian learning approaches to automatic knowledge acquisition // In Wielinga B., ed., Current Trends in Knowledge Acquisition. IOS Press, 1990.
4.     Kotsiantis S.B. and Pintelas P.E. Increasing the Classification Accuracy of Simple Bayesian Classifier. Educational Software Development Laboratory. Department of Mathematics. University of Patras, Hellas, 2004.
5.     Pazzani, M. J. Search for dependencies in Bayesian classifiers // In Fisher D., and Lenz, H. J., eds., Learning from Data: Artificial Intelligence and Statistics V. Springer Verlag, 1996
6.     Quinlan J., C4.5: Programs for Machine Learning. Morgan Kaufmann: San Mateo, CA, 1993.
7.     Zhang H. The Optimality of Naive Bayes. Faculty of Computer Science University of New Brunswick Fredericton, New Brunswick, Canada, 2004.



[1] Тест основан на сравнении эмпирических функций распределения по двум выборкам показателей по надежным и ненадежным банкам.

 

Building Bayesian net for bank’s reliability estimation

S.I. Pshenichny

Postgraduate student, Finance academy under the Government of the Russian Federation

Bayesian networks have proved themselves in tasks of data classification and observations. Bayesian net can be used for purposes of estimation of bank’s reliability. This work defines the bank’s reliability from probabilistic approach viewpoint, an example of Bayesian and algorithm of building Bayesian net is given. General view of naive Bayesian is shown. This work presents a number of factors based on regular financial statements of banks and ways of data processing when building a net.

Key words: вank reliability; Bayesian networks; naive Bayesian classifier; basic assumptions of naive Bayesian classifier.

 

 

Номер в PDF формате

наверх