الترميز (Tokenization)

اللبنة الأساسية التي يفهم بها الذكاء الاصطناعي لغتنا
Share

اللبنة الأساسية التي يفهم بها الذكاء الاصطناعي لغتنا

ما هو الـ Tokenization؟

الـ Tokenization هو عملية تقسيم النص إلى وحدات صغيرة تُسمّى “Tokens” حتى يتمكن نموذج الذكاء الاصطناعي من معالجتها وفهمها. الـ Token ليس بالضرورة كلمة كاملة قد يكون كلمة او جزءًا من كلمة أو حتى علامة ترقيم. فكّر في الأمر كما تفعل مع الأطفال حين يتعلمون القراءة تُقسّم الكلمة إلى مقاطع أصغر حتى يسهل فهمها ونطقها. النموذج لا يقرأ الجملة كما نقرأها بل يراها كسلسلة من هذه الرموز الصغيرة.

0
توكن
0
حرف
0
حرف لكل توكن
ابدأ الكتابة…
كلمة
علامة ترقيم
جزء كلمة
مسافة

ما المشكلة التي يحلّها؟

الحواسيب لا تفهم اللغة بطبيعتها هي تفهم الأرقام فقط. الـ Tokenization يحل هذا بأن يكون الجسر بين النص والأرقام التي يعالجها النموذج. بدونه، لا يستطيع أي نموذج لغوي قراءة كلمة واحدة أو الإجابة على أي سؤال. هو الخطوة الأولى والأساسية في سلسلة معالجة اللغة الطبيعية كاملة.

مثال من الواقع

حين تكتب لـ ChatGPT أو Claude: “ما هو الذكاء الاصطناعي؟” — النموذج لا يقرأ الجملة كما تراها. بدلاً من ذلك يُقسّمها إلى Tokens مثل: [“ما”, ” هو”, ” الذكاء”, ” الاصطناعي”, “؟”] — ثم يُحوّل كل Token إلى رقم. هذه الأرقام هي ما يعالجه النموذج فعليًا للإجابة عليك. ولهذا السبب حين تستخدم Claude API مثلاً، تُحاسَب على عدد الـ Tokens وليس عدد الكلمات لأن الـ Token هو وحدة القياس الحقيقية.

الخلاصة

الـ Tokenization هو نقطة البداية في كل نموذج لغوي بدونه لا يوجد ChatGPT ولا Claude ولا أي ذكاء اصطناعي يفهم النص. فهمك لهذا المفهوم يُساعدك على استخدام النماذج اللغوية بذكاء أكبر تعرف لماذا النصوص الطويلة تكلّف أكثر، ولماذا بعض اللغات تستهلك Tokens أكثر من غيرها، ولماذا للنموذج حد أقصى لما يستطيع معالجته في وقت واحد.

منتج البيانات (Data Product)

Prev

قاعدة البيانات المتجهة (Vector Database)

Next
Comments
Add a comment

اترك رد

لإثراء معرفتك
القائمة البريدية الخاصة بمعاذ!
ماراح اكون مزعج - بس كل ايميل بيكون مهم

اكتشاف المزيد من منصة داتا لاب

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading