عادة ما يحتاج كل من مُدقّقي بيانات وحسابات البنوك ومسؤولي الاستخبارات للقضاء عن تمويل الإرهاب عن بكرة أبيه أن يسلكوا الطّريق الوعرة في التّعامل مع تقنيات استغلال وتحليل المُستندات النصيّة (Document Exploitation) أو عمليّات التعامل مع المُستندات المصدر – SD (Source Document) والتي تتضمّن إيجاد المعلومات المُناسبة والصّحيحة من بين ملايين المُستندات الورقيّة غير المُنظّمة، بالعربي: إبرة في كومة قش. وهنا تظهر الحاجة المُلحّة لوجود المُحلّلين والمُترجمين المالييّن المُتمتّعين بخبرة ميدانية مُناسبة ولديهم القدرات اللغوية القويّة، ولكن للأسف لا يوجد الكثير منهم. تتصدّر مهارات اللغة العربية قائمة الطلب يليها الباتشو، الأرديّة، وأخيرًا الفارسيّة.
وهنا أيضًا تظهر الحاجة المُلحّة لتقنيات مُتطوّرة وجديدة لتحسين وزيادة القدرة على مُعالجة المُستندات النصيّة والتعامل معها لتعويض النّقص الكبير في مُحلّلي النصوص العربية. ذكر Larry Den، نائب الرئيس الأعلى لقسم تكنولوجيا المعلومات في Vredenburg أن النّقص في اللغوييّن الأكفاء زاد من الحمل على عاتق خدمات الترجمة الآليّة في أنواع مُحدّدة من البيانات خصوصّا أن المواد في بعض الأحيان لا يُمكن أرشفتها إلا بعد ترجمتها. من أكثر التقنيات شيوعًا واستخدامًا في هذا الصّدد تقنيّة التّعرف على الحروف البصريّة والتي تُعرف بـ (OCR)، والتي تقوم عادةً بتحويل الصور المُحتويّة على نصوص إلى نصوص يُمكن التعامل معها وتعديلها بحيث يُمكن لمُختلف برامج وتطبيقات الحاسوب التعامل معها أو حتى البحث عنها علاوة على منح المُستخدم إمكانيّة ترجمة النّص إلى مُختلف اللغات.
بالرّغم من الكفاءة العالية التي تتمتع بها تقنيات التّعرف على الحروف البصريّة (OCR) مع النصوص اللاتينيّة (كاللغة الإنجليزية، الفرنسية، والإيطالية على سبيل المثال لا الحصر)، إلا أنها ليست على قدر المسؤولية المطلوب عندما يتعلق الأمر باللغة العربيّة. يُعتبر العائق الأكبر لهذه التّقنيات صعوبة التّعامل مع الأشكال المُختلفة للنصوص العربية. فعادة ما يتّخذ كل حرف عربي شكلًا من ضمن 4 أشكال حسب موقعه في الجملة (أنظر الشكل رقم 1 للتوضيح). وبسبب أن أشكال ومواقع الحروف تتغيّر باستمرار وبوتيرة أكبر مُقارنة باللغات الأخرى مثل الإنجليزيّة، يصعب التّعامل مع الحروف العربيّة والتّعرف عليها. علاوة على ذلك، قد يتخلّل الأشكال الأربع لكل حرف علامات أخرى مثل حروف مائلة، حروف فوقها نقاط، أو حتى حركات التّشكيل العربيّة.
بسبب القصور الكبير لتقنيات OCR في اللغة العربية، تظل عمليّات تحليل واستغلال المُستندات النصيّة (Docex) وتحديد المُستند المصدر في الشّرق الأوسط بحاجة إلى الكثير من الأيدي العاملة والتي تتقاضى أغلب الميزانيّة المُحدّدة. ونظرًا للنقص في عدد المُحلّلين العربيّين ثُنائيّي اللغة، في غالب الأحيان يمتلك الطّاقم المسؤول عن المراجعة الأوليّة للمُستندات معرفة محدودة باللغة المصدر للمُستند. في كثير من الأحيان، يتم تجاهل الكثير من المعلومات الهامّة والتي قد تكون غاية في الفائدة لمُكافحة تمويل الإرهاب عندما يتم وضع مجموعة كبيرة من المُستندات المُعقّدة بين أيدي مُحلّلين لا يمتلكون العلم والمهارة اللازمين لتقييم المُحتوى بالشكل المُناسب. بالرغم من أن مُختلف برامج التّرجمة الآليّة في تحسّن مُستمر، إلا أنها لا شيء مُقارنة بقدرات لغوي كفء.
ختامًا، ستظل عمليّات تحليل واستغلال المُستندات النصيّة (Docex) وتحديد المُستند المصدر في الشّرق الأوسط بشريّة بالكامل حتى تتطوّر تقنيات OCR بالشكل المطلوب للتعامل مع النصوص العربيّة. استطاعت مجموعة فارا تجميع فريق كفء من المُحلّلين الماليّين العرب والذين يُمكنهم العمل على أي مشروع في الشّرق الأوسط أو حتى لصالح هيئات قضائيّة أخرى. من خلال تطبيق آليّة منهجيّة للتعامل مع المُستندات الورقيّة والرّقميّة، يُمكن بكل سهولة استخراج المعلومات المطلوبة وتخزينها على هيئة صيغة مُرتّبة وهيكليّة. يتم أيضًا استغلال المنصات الرّقمية لـ التعامل مع المُستندات القانونيّة (E-discovery). يُمكن أيضًا تكملة هذه البيانات باستخدام عنصر الذكاء البشري وقواعد بيانات الجرائم والمُخالفات وفقًا للحاجة، ومن ثم يُمكن تطويعها على هيئة تقرير شرعي مُترابط. تفتخر مجموعة فارا بتنفيذها العديد من المشاريع الغاية في النجاح على مُستوى دولي والتي تضمّنت عدّة دول عربيّة.