Пять лет назад, в рамках работы Fara Group по противодействию отмыванию денег/финансированию терроризма (ПОД/ФТ), мы провели аудит ликвидируемого банка, который ранее попал под санкции Казначейства США. Нашей основной задачей было выявить токсичные счета и связанных с ними владельцев счетов, чтобы предотвратить дальнейшее заражение финансовой системы в целом, как в стране, где находился банк, так и на международном уровне. Проект оказался успешным, поскольку, помимо прочего, наши усилия позволили раскрыть различные сети и транзакции, а также помогли сформировать политические действия правительства в отношении финансистов специально назначенной глобальной террористической организации.

Учитывая несовершенную практику ведения учета и хранения данных в банке, а также общую обстановку, в которой он работал, проект оказался интенсивной ручной работой, которая потребовала привлечения специальной команды лингвистов, специалистов по анализу данных, специалистов по судебной бухгалтерии и других сотрудников, работающих в разных юрисдикциях.

Работа также была сопряжена со значительными рисками безопасности, поскольку высшему руководству и аналитикам приходилось неоднократно выезжать в места повышенного риска из-за задержек с получением и пониманием необходимых данных, большая часть которых хранилась в коробках с физическими папками и/или на локальных компьютерах.

Одним словом, это было дорогостоящее и сложное мероприятие, отягощенное проблемами, которые благодаря произошедшей с тех пор революции в области искусственного интеллекта сегодня могут показаться не такими уж и сложными. Тем не менее, этот случай также служит примером того, в каких областях ИИ, скорее всего, будет продолжать отставать от тонких человеческих усилий, по крайней мере, в ближайшем будущем.

 

Трудности с эксплуатацией документов

Эта работа включала обработку больших объемов неструктурированных данных в массивном архиве PDF-файлов и физических бумажных документов, в том числе изображений чеков, заполненных от руки форм “Знай своего клиента” (KYC), кредитных документов и отчетов о подозрительной деятельности (SARs). Все это должно было быть тщательно изучено более чем десятком экспертов и аналитиков Fara Group и вручную внесено в структурированные наборы данных.

Задача осложнялась тем, что многие документы были написаны на арабском языке и содержали важные рукописные детали. Несмотря на то, что мы использовали новейшее на тот момент программное обеспечение для оптического распознавания символов (OCR), эта технология была недостаточной. Программное обеспечение не справлялось с точностью, часто неправильно интерпретируя символы или вообще пропуская части документов. Оно было медленным, склонным к ошибкам и неспособным управлять сложными макетами, что делало оцифровку утомительной и трудоемкой. Работа с нелатинскими шрифтами или смешанными форматами документов была практически невозможна.

Сегодня технология OCR претерпела значительные изменения. Усовершенствованные алгоритмы теперь обеспечивают более быстрое и точное распознавание даже сложных макетов. Надежность OCR значительно повысилась, обеспечивая более плавный процесс оцифровки документов и извлечения данных. Однако в этой области еще есть над чем работать, особенно над устранением пробелов в распознавании нелатинских шрифтов, которые остаются критической областью для совершенствования.

 

Проблемы в аналитике AML

Вскоре мы заметили, что в значительной части структурированных данных о банковских операциях, взятых из устаревшей ИТ-системы, отсутствовали важные коды, связывающие операции между счетами, что делало выверку сложной задачей. Непоследовательное применение комиссий в разных полях еще больше усугубляло проблему, а наборы данных SWIFT с отдельного сервера не соответствовали структурированным данным о банковских операциях.

Хотя Excel и различные инструменты судебной аналитики, с которыми мы экспериментировали, в некоторой степени позволяли выявлять закономерности и сортировать большое количество счетов, они были слишком жесткими и не обладали достаточной эффективностью и масштабируемостью. Решения на основе искусственного интеллекта, использующие машинное обучение, предиктивную аналитику и надежные облачные вычисления, могли бы автоматизировать сопоставление данных, отмечать аномалии и обрабатывать огромные массивы данных с большей скоростью, точностью и адаптивностью, значительно оптимизируя процесс.

Инновационные решения по транслитерации для соответствия наборам данных

Ключевой задачей было определить, присутствуют ли в базе данных владельцев счетов нашего клиента или среди его контрагентов по сделкам лица, связанные с обозначенной террористической организацией. Одна из трудностей заключалась в том, что приобретенный набор данных о подозреваемых лицах был написан арабской вязью, которая может быть транслитерирована самыми разными способами, в то время как список клиентов банка был написан латиницей. (Например, весьма распространенное имя “Мохаммад” имеет более 20 различных вариантов написания в латинице).

Мы обнаружили, что лучший способ эффективно преодолеть этот разрыв между арабскими и английскими наборами и обеспечить точное соответствие данных — это заставить носителей арабского языка в нашей команде вручную создать словарь для более чем 200 000 уникальных арабских имен, которые могли бы совпадать с данными банка со всеми их возможными английскими транслитерациями. Этот кропотливый процесс потребовал тысяч часов усилий и масштабирования вычислительной обработки с помощью облачных сервисов AWS. Мы также привлекли разработчиков Python, чтобы автоматизировать значительную часть процесса, повысив эффективность и сократив ручные усилия.

Нам удалось выявить тысячи совпадений владельцев счетов с суммарным объемом операций, превышающим 6 миллиардов долларов.

Несмотря на то, что искусственный интеллект с машинным обучением мог бы помочь в некоторых частях этого процесса, опыт носителя арабского языка был крайне важен. Они глубоко понимали вариации имен и могли предугадать, как имена могут быть намеренно изменены отмывателями денег, чтобы избежать обнаружения.

Сегодня, при наличии правильных инструментов и запросов, приложения ИИ могут выполнять эту задачу гораздо эффективнее. Например, ChatGPT генерирует 22 варианта имени “Мохаммад” всего за 12 секунд, демонстрируя потенциал для составления целого словаря арабских имен за несколько часов, в зависимости от вычислительной мощности.

 

eDiscovery

Используя платформу eDiscovery, мы составили карту отношений, информации о транзакциях и других важных данных, найденных в сотнях тысяч банковских электронных писем. Несмотря на возможность проведения этой части расследования с помощью цифровой платформы, процесс все равно требовал тщательного ручного анализа со стороны наших аналитиков. Команда полагалась на поиск по ключевым словам — метод, который может не уловить нюансы или закодированные сообщения, призванные ускользнуть от обнаружения (что еще больше усложняло дело, некоторые письма были написаны на арабском языке). Кроме того, поскольку в некоторых случаях в результате поиска были найдены тысячи писем, аналитикам было практически невозможно своевременно проанализировать каждую находку.

ИИ произвел революцию в области eDiscovery при расследовании дел об отмывании денег, выйдя за рамки ограничений старых методик. Сегодня ИИ использует обработку естественного языка (NPL) и машинное обучение для анализа контекста, выявления закономерностей и установления связи между подозрительными сообщениями и записями транзакций с поразительной точностью. Этот сдвиг значительно повысил скорость и точность расследований, позволив финансовым учреждениям, а также правоохранительным органам обрабатывать огромные объемы данных за считанные минуты, снижая при этом риск упустить улики.

Платформы eDiscovery могут интегрироваться со структурированными массивами данных о транзакциях, чтобы произвести революцию в финансовых расследованиях, позволяя глубже понять деятельность по отмыванию денег. Связывая сообщения электронной почты с записями транзакций, эти инструменты позволяют проводить расширенную корреляцию данных и распознавать шаблоны, выявляя подозрительные аномалии, такие как необычные суммы или сроки. Такая связь повышает эффективность расследований, позволяя проследить финансовые потоки по каналам связи, раскрывая скрытые сети или схемы.

Наши результаты включали в себя различные диаграммы, иллюстрирующие движение операций между физическими и юридическими лицами, включая даты и суммы, и во многих случаях сопровождались документами в качестве подтверждающих доказательств.

 

Почему полная зависимость от искусственного интеллекта все еще может быть слишком далеким мостом

ИИ снизил потребность в критическом мышлении во многих областях. Он часто выдает результаты, не раскрывая логики, лежащей в их основе. Хотя он имитирует человеческие процессы, он работает с гораздо большей скоростью и в гораздо больших масштабах.

Однако данные несовершенны, и именно здесь эксперты в предметной области играют решающую роль — они могут распознать нюансы и несоответствия, которые ИИ может упустить. Ученые, изучающие данные, могут понимать науку, стоящую за цифрами, но им может не хватать глубокого понимания самих данных. Человеческий опыт по-прежнему важен для обеспечения контекста, суждений и понимания. Технология ИИ, которая опирается на несовершенные данные, скорее дополняет, чем заменяет человеческие усилия во многих сложных областях.

Другими словами, несмотря на многочисленные достижения, ИИ не в состоянии понять тонкие детали банковской динамики, особенно в незападных юрисдикциях. Подобно некоторым ученым, занимающимся анализом данных, которые могут анализировать сырые цифры без более глубокого контекста, ИИ с трудом распознает культурные, географические и другие нюансы, которые жизненно важны в таких процессах, как KYC или одобрение кредитов.

Более того, он не может (пока!) уловить невербальные сигналы, полученные с помощью человеческой разведки, например, во время личной беседы с менеджером банка, и не способен предугадать местную политическую динамику или деликатные отношения вокруг конкретного учреждения и его клиентов. Эти недостатки могут привести к ложным срабатываниям, напряженным отношениям с клиентами или неверной оценке риска.

С другой стороны, как уже говорилось выше, ограничения технологии OCR, которые стали очевидны во время нашего банковского аудита пять лет назад, с тех пор значительно улучшились. Усовершенствованные алгоритмы теперь обеспечивают более быстрое и точное распознавание даже сложных макетов, а надежность современного OCR позволяет более плавно оцифровывать документы и извлекать данные. Однако не забывайте, что, хотя эти усовершенствования означают значительный прогресс, над устранением пробелов для нелатинских шрифтов еще нужно поработать.

По нашему опыту, подготовка специальных отчетов о потенциальных связях с финансированием терроризма представляла значительные уникальные трудности, в первую очередь из-за непоследовательного и неполного характера имеющейся информации. Проблемы включали в себя технологические недостатки старой банковской системы, такие как небезопасные данные и ограничения по количеству символов, а также случаи, когда клиентские проверки проводились в устной форме сотрудниками банка, а не через систему. Благодаря находчивости наших аналитиков, которые смогли сопоставить информацию из различных точек данных, включая бумажные неструктурированные формы, сбор информации из человеческих источников и находки на платформах eDiscovery, мы обнаружили значительные недостающие, непоследовательные и/или измененные вручную данные в том, что должно было быть автоматической банковской системой.

Еще одним осложняющим фактором, который остается актуальным и сегодня, является то, что плохие игроки по мере своих возможностей стараются избегать отслеживаемых и обнаруживаемых методов перемещения своих средств (таких как прямые электронные переводы), придумывая вместо этого постоянно меняющиеся креативные решения. В зависимости от специфических недостатков юрисдикции, в которой они действуют, они также используют неортодоксальные методы ввода средств в финансовую систему (например, намеренное перерасходование средств на счетах и расчеты наличными, и это только один пример).

Все это означает, что опыт работы на местах и понимание, казалось бы, непонятных взаимоотношений между различными участниками очень важны.

В нашем случае сложность и специфичность анализа потребовали от человека специальных знаний для интерпретации и синтеза различных типов данных. Хотя современный ИИ мог бы послужить ценным инструментом для некоторых аспектов этого процесса, например, для выявления закономерностей при обработке больших массивов данных, ему, скорее всего, не хватило бы возможностей для полной генерации специализированных результатов, требующих тонких суждений, понимания контекста и адаптации.

Вместе ИИ и человеческая проницательность могут повысить эффективность. Тем не менее, представляется вероятным, что усилия человека по-прежнему будут лежать в основе создания подробных, контекстно-чувствительных результатов для конкретных случаев, таких как этот банковский аудит, по крайней мере, в ближайшем будущем.

Заключение

Компания Fara Group интегрировала ИИ в свой рабочий процесс и рассматривает его как мощный, дополнительный инструмент, а не как универсальное решение. ИИ действует как мультипликатор силы, позволяя выполнять задачи, на которые раньше уходили тысячи часов, за долю времени.

Мы думаем об искусственном интеллекте как о блестящем новичке, присоединившемся к нашей аналитической команде. Он может удивить своей скоростью и способностью открывать ценные сведения. Однако он может и оступиться, не понять контекста, упустить очевидные темы и не понять тонкостей.

В центре аналитического процесса по-прежнему находится старший эксперт, чей опыт дает критическое понимание и способность выносить суждения и оценивать результаты. По крайней мере, в настоящее время они лучше, чем ИИ, умеют распознавать происхождение данных и их ограничения, заполнять пробелы в аналитике и включать информацию из различных источников, в том числе из человеческих источников, чтобы создавать богатые, содержательные аналитические материалы о том, что действительно важно для наших клиентов.