التعامل مع التشكيل في اللغة العربية برمجيا

This article is available in English too, check it out here.

المحتويات

محتويات هذا الموضوع:

  • المحتويات
  • نظرة خاطفة
  • مقدمة
  • دعم نظام التشغيل
  • معالجة النصوص
  • مقارنة النصوص
  • خاتمة

نظرة خاطفة

يركز هذا الدرس على عملية معالجة النصوص String Processing التي تحتوي على علامات وحروف معينة مثل علامات التشكيل في اللغة العربية أو بعض العلامات مثل الموجودة في الألمانية أو العبرية التي يمكن دمجها مع الحروف. وبما أن هذا الدرس يتكلم باللغة العربية فسوف تكون أمثلتنا على حروف وكلمات عربية.

مقدمة

في بعض اللغات مثل العربية، العبرية، والألمانية يمكن دمج بعض الحروف مع الحرف الأصلي إشارة إلى طريقة معينة للنطق بهذا الحرف. فمثلا يمكنك دمج الضمتان مع كلمة “محمدٌ” إشارة إلى أن هذا الكلمة مرفوعة ويجب أن تنطق بطريقة معينة.

ويسمى الحرف الأول الذي تمدج معه هذه العلامات أو التشكيلات يسمى الحرف الأصلي Base Character. أما أي علامة آخر تدمج معه فتسمى الحرف المدموج Combining Character. ويمكن دمج أكثر من حرف مع بعض. فيمكننا مثلا دمج الشدة والفتحة على حرف الميم الثاني في “محمَّد” وبهذا بدلا من أن تصبح الكلمة ثلاثة حروف خالصة، يصبح الحرف الثالث مؤلف من الحرف الأصلي وحرفي دمج. ويمكننا تشكيل الكلمة تشكيلا كاملا فتصبح مثلا “مُحَمَّـدٌ”.

وكما نعرف كل حرف يظهر على الشاشة له كود (ترميز) ANSI معين. فمثلا الحرف A له الكود 65 أو 0x41 بالترميز الست-عشري. ومثل الحروف الأصلية، فالعلامات أيضا كل علامة لها رمز أو كود معين.

دعم نظام التشغيل

يقدم نظام التشغيل الكثير من الدعم لعلامات التشكيل في اللغة العربية. الجدول التالي يوضح أهم الحروف والعلامات، الرموز الخاصة بها، واختصارات لوحة المفاتيح المستخدمه لكتابتها.

الترميز العلامة الاسم الاختصار
0x064BفتحتانShift + W
0x064CضمتانShift + R
0x064DكسرتانShift + S
0x064EفتحةShift + Q
0x064FضمةShift + E
0x0650كسرةShift + A
0x0651شدةShift + ~
0x0652سكونShift + X

بالإضافة إلى ذلك يوفر نظام التشغيل أداة متميزة جدا تقوم بعرض جميع الحروف الموجودة في جدول ANSI بالخط الذي اختاره المستخدم. فيمكنك من خلالها إضافة أي حروف أو علامات ربما تكون غير موجودة في لوحة مفاتيحك. كما يمكنك أيضا مراجعة الأكواد والترميز الخاص بهذه الحروف ومعرفة العلاقات التي تربطها.

وهذه الأداة تسمى خريطة الأحرف Character Map. ويمكن تشغيلها بطريقتين:

  1. عن طريق Start->Programs->Accessories->System Tools->Character Map.
  2. أو عن طريق كتابة الأمر charmap.exe في أمر التشغيل Run.

وهذه لقطة من البرنامج:

الأداة Character Map


معالجة النصوص

ماذا لو كان النص الذي أدخله المستخدم يحوي أحد أو بعض هذه الأحرف؟ كيف سيتم التعامل معه برمجيا؟ مما فهمناه في المقدمة فعلامات التشكيل هي حروف منفردة ولكنها تظهر فوق الحرف الأصلي الواقع قبلها. إذا فكلمة “محمد” تختلف كثيرا عن “مُحمد”، فالأولى أربعة أحرف أما الثانية فهي خمسة!

ولكن هل هذا ما نريده حقا؟ ماذا عن المشاكل الواقعة من أحد أخطاء المستخدم في كتابة اسمه أو أحد البيانات الخاصة به؟

الحل بسيط جدا! بداية نأخذ اسم نبينا العدنان محمد -صلى الله عليه وسلم- ونقوم بتشكيله فقط بضمة فوق الميم الأولى وبشدة وفتحة فوق الميم الأخرى، لتصبح الكلمة حقيقة عبارة عن هذه السلسلة من الأحرف (على الترتيب):

  1. ميم
  2. ضمة
  3. حا
  4. ميم
  5. شدة
  6. فتحة
  7. دال

ولكنها مجازا عبارة عن أربعة أحرف فقط (على الترتيب):

  1. ميم مضمومة
  2. حا
  3. ميم مشددة بالفتح
  4. دال

إذا فالمطلوب الآن وضع تحليلان برمجيا لهذه الكلمة، أحدهما يقوم بسرد حروفها حقيقة فتصبح سبعة أحرف، والآخر يقوم بسردها مجازا فتصبح أربعة أحرف فقط. وسنبدأ بالأول.

الكود التالي يقوم بسرد النص بالطريقة المعروفة والتي تسفر عن فك الأحرف المدموجة لتصبح الكلمة سبعة أحرف:

// C#
string name = "مُحمَّد";
string result = String.Empty;
for (int i = 0; i < name.Length; i++)
    result += String.Format("{0}\t{1}\b", i, name(i));
MessageBox.Show(result);
' VB.NET
Dim name As String = "مُحمَّد"
Dim result As String = String.Empty
For i As Integer = 0 To name.Length - 1
    result &= String.Format("{0}{1}{2}{3}", i, vbTab, name(i), vbNewLine)
Next
MessageBox.Show(result)

والآن إلى النقطة الأكثر إثارة وهي سرد الحروف بدون فكها لتكون الكلمة في المثال معنا هي أربعة أحرف فقط. ويتم ذلك عن طريق التصنيفان TextElementEnumerator و StringInfo والموجودان في الـ Namespace المسمى System.Globalization.

بعد إضافة System.Globalization إلى قائمة الـ Namespaces المستخدمة في البرنامج باستخدام جملة using في C# أو Imports في VB.NET يمكنك استخدام الكود التالي لسرد حروف الكلمة بدون فك الدمج فتصبح أربعة أحرف فقط:

// C#
string name = "مُحمَّد";
string result = String.Empty;
TextElementEnumerator enumerator =
    StringInfo.GetTextElementEnumerator(name);
while (enumerator.MoveNext())
    result += String.Format("{0}\t{1}\b",
        enumerator.ElementIndex, enumerator.Current);
MessageBox.Show(result);
' VB.NET
Dim name As String = "مُحمَّد"
Dim result As String = String.Empty
Dim enumerator As TextElementEnumerator = _
    StringInfo.GetTextElementEnumerator(name)
While enumerator.MoveNext()
    result &= String.Format("{0}{1}{2}{3}", _
        enumerator.ElementIndex, vbTab, _
        enumerator.Current, vbNewLine)
End While
MessageBox.Show(result)

نلاحظ أنه رغم مراعاة عدم فك الأحرف تم مراعاة مكان كل حرف أي الـ Index الخاص به.

مقارنة النصوص

ماذا عن مقارنة نص بدون حروف مدموجة بنص آخر بحروف مدموجة مثلا مقارنة “محمد” بـ “مُحمَّد”؟ رغم أن النصوص متماثلة والفرق فقط هو في التشكيل، فإن الكود لا يعلم ذلك هو فقط يعلم أن النص الأول هو أربعة أحرف والآخر هو سبعة أحرف وبالتالي فالفرق واضح.

هل نقوم باستخدام الكود السابق لمقارنة كل حرف على حدة؟ سوف تكون العملية مرهقة وفي الغالب ستحدث العديد من الأخطاء. إذا ما هو الحل؟ الحل هو في استخدام أحد النسخ من الأمر String.Compare والذي يمكننا من تحديد الأوامر الخاصة بالنصوص المدموجة.

هيا بنا نستكشف الكود التالي والذي يقوم بعقد مقارنات بين النصوص بثلاث طرق مختلفة (لاحظ أن الطريقة الأولى والثانية في الحقيقة متماثلتان):

// C#
string name1 = "محمد";
string name2 = "مُحمَّد";
// الطريقة الأولى
if (name1 == name2)
    MessageBox.Show("النصوص متماثلة");
else
    MessageBox.Show("النصوص مختلفة");
// الطريقة الثانية
if (String.Compare(name1, name2) == 0)
    MessageBox.Show("النصوص متماثلة");
else
    MessageBox.Show("النصوص مختلفة");
// الطريقة الثالثة والجديدة
if (String.Compare(name1, name2,
        System.Threading.Thread.CurrentThread.CurrentCulture,
        CompareOptions.IgnoreSymbols) == 0)
    MessageBox.Show("النصوص متماثلة");
else
    MessageBox.Show("النصوص مختلفة");
' VB.NET
Dim name1 As String = "محمد"
Dim name2 As String = "مُحمَّد"
' الطريقة الأولى
If (name1 = name2) Then
    MessageBox.Show("النصوص متماثلة")
Else
    MessageBox.Show("النصوص مختلفة")
End If
' الطريقة الثانية
If (String.Compare(name1, name2) = 0) Then
    MessageBox.Show("النصوص متماثلة")
Else
    MessageBox.Show("النصوص مختلفة")
End If
' الطريقة الثالثة والجديدة
If (String.Compare(name1, name2, _
        System.Threading.Thread.CurrentThread.CurrentCulture, _
        CompareOptions.IgnoreSymbols) = 0) Then
    MessageBox.Show("النصوص متماثلة")
Else
    MessageBox.Show("النصوص مختلفة")
End If

نلاحظ فشل الطريقة الأولى والثانية بينما نجحت الطريقة الأخيرة.

إذا ما هو هذا السحر الذي قام به الأمر System.Globalization.CompareOptions.IgnoreSymbols؟ يقوم هذا الأمر CompareOptions.IgnoreSymbols بتجاهل أي علامات Symbols غير الحروف.

وللأسف لا يمكننا الاعتماد بشكل أساسي على هذا الأمر فهو يقوم بتجاهل جميع العلامات مثل المسافات وعلامات التنصيص والنسبة المئوية وغيرها!!! لهذا فالنص “محمد الشيمي” هو بالنسبة له مماثل تماما لـ “محمدالشيمي” بدون المسافة الفاصلة!

خاتمة

كان هذا عرض سريع وموجز لفكرة التعامل مع علامات التشكيل ونحوها برمجيا. ونترك باقي الأفكار والحلول لفكر القارئ ولبحثه. ونرجوا أن نكون قد وفقنا في عرض الموضوع.

مواضيع مشابهة:

اخترنا لك:

أحدث المواضيع:

هل أعجبتك؟ شارك بها...
  • مجهود اكثر من رائع من رجل يستحق التقدير

  • مجهود اكثر من رائع من رجل يستحق التقدير

  • Pingback: Working with Strings with Combining Characters | Just Like a Magic()

  • هذا الموضوع جميل جدًا :)
    قد يفيد في المقارنة بينالنصوص بغض النظر عن التشكيل
    كما قد يفيد في إزالة التشكيل وتزيين الأسماء وعناوين المواضيع في المواقع التي يضيفها الكتاب
    وأيضًا قد يفيد في عمل خدمة تنافس خدمة جوجل تشكيل ^__^
    شكرًا لك

    • نعم، برغم أن هذه الطريقة طريقة بدائية جدا إلا أنها توضح الفكرة والمفهوم العام وهذا ما قصدته من هذا الموضوع. وبإذن الله في مواضيع قادمة سوف نتطرق إلى مواضيع وأفكار أبعد من ذلك وسنتحدث بتفصيل أكثر عن تقنيات معالجة النصوص.

  • H.Wasef

    جزاك الله كل خير يا هندسه علي المدونة المميزة دي :)

  • Mesho100200

    بجد الله ينور

  • Hassan

    بارك الله فيك

    وأتمنى لو كان الموضوع يشمل اعادة قيمة الأحرف المشبوكة التي تظهر لنا لأي نص يتم إدخالة بناء على فونت معين
    مثلا إذا أدخلت كلمة
    “ثم”
    للخط Traditional Arabic
    يعيد لي أنه رمز واحد وهو U+FC12
    لأنه الحرفين يظهر بشكل رمز واحد لأنهما من الحروف المركبة

    تحياتي