Thursday, October 13, 2005 | 12:18 AM
مهارت در جستجوي اطلاعات فارسي از طريق اينترنت
خط فارسي داراي مشكلات مختلفي است كه در جستجو و بازيابي اطلاعات، مسائل و مشكلات فراواني را فراروي كابران اينترنت قرار مي‌دهد. به خصوص با رشد سريع انتشارات الكترونيكي بر روي وب در شكل‌هاي مختلف پايگاه‌هاي اطلاعاتي، وبلاگ و... هيچ قاعده مشخص و ثابتي براي رسم‌الخط فارسي وجود ندارد و اين مسأله باعث شده تا جستجوگران مطالب فارسي با مشكلات فراواني روبرو شوند.

اينترنت به عنوان يك محمل اطلاعاتي عظيم، منابع اطلاعاتي را در مقياسي وسيع در دسترس مخاطبان بالقوه قرار داده است. سهولت دسترسي به منابع اطلاعاتي اعم از متن و ساير رسانه‌ها عمده‌ترين مزيت اينترنت محسوب مي‌شود. اين توانايي كه هر كس ناشر آثار خود باشد عواقب ناخواسته‌اي را نيز در پي خواهد داشت و آشكارترين معضل، آن است كه انبوهي از منابع بسيار متنوع و غيرقابل مديريت را فراهم مي‌آورد. افزايش سريع منابع اينترنتي نيازمند يك سازمان‌دهي مفيد و مؤثر است. هرچند در حال حاضر راهنماي‌هايي براي منابع اينترنتي تهيه شده است كه براساس فايل‌هاي مقلوب ساخته شدهِ توسط موتورهاي جستجو و با استفاده از قابليت‌هاي مختلف اين موتورها از جمله؛ استفاده از عملگرهاي بولي، جستجوي دقيق عبارت، محدود كردن يك جستجو به بخش خاصي از ركورد (مانند عنوان، آدرس) كوتاه‌سازي كلمات، جستجوي نزديك‌يابي واژه‌ها، ايجاد محدوديت زماني و منطقه‌اي و زباني و .... به جستجوي اطلاعات كمك مي‌كند اما بايد تاكيد كرد كه در امر بازيابي اطلاعات از اينترنت بدون نمايه‌سازي نظام يافته نمي‌توان انتظار بازيابي مفيد و مؤثر را داشت. هرچند بيشترين اطلاعات موجود بر روي اينترنت به زبان انگليسي است، ولي حجم اطلاعات به زبان فارسي نيز با سرعت در حال افزايش است و كاربران به دلايل مختلفي علاقه زيادي به اطلاعات فارسي نشان مي‌دهند و از آن جايي كه زبان غالب در اينترنت انگليسي است، جستجو به زبان‌هاي غيرانگليسي از جمله فارسي، مسايل و مشكلات مختلفي را جداي از مشكلات عمومي اينترنت دارد.

حجم اطلاعات به زبان فارسي در روي اينترنت در اشكال مختلف آن به سرعت رشد كرده است. در حال حاضر توسعه وبلاگ‌هاي فارسي، سايت‌هاي علمي، تبليغاتي و دانشگاهي به زبان فارسي باعث شده است كه جايگاه زبان فارسي تا حد زبان اول ارتباطات اينترنتي نزد ايرانيان و فارسي‌زبانان در سراسر جهان ارتقا يابد. شايد بتوان گفت كه اولين مرجع وبلاگ‌نويسي فارسي با انتشار راهنماي ساخت وبلاگ فارسي آغاز شده است. بدون شك دومين موج نيز با شروع به كار سايت پرشين بلاگ كه امكان راه‌اندازي وبلاگ براي كاربران فارسي زبان را با سهولت بيش‌تري فراهم مي‌كند آغاز شده است. اما پيامد قابل توجه ديگري كه رشد وبلاگ‌نويسي در ايران داشته است پيدايش سايت‌هاي اينترنتي فارسي زباني است كه صاحبان وبلاگ‌ها ايجاد كرده‌اند و اين خود موج جديدي از گسترش كاربرد اينترنت در جامعه ايران به حساب مي‌آيد. اكنون روي آوردن برخي از روزنامه‌نگاران، پژوهش‌گران، دانشجويان به وب فارسي و استفاده از منابع خبري، علمي و .... موجب تقويت نقش رسانه‌اي وب فارسي شده است.

پديده ديگري كه باعث گسترش زبان و خط فارسي در اينترنت شده است، ايجاد كتابخانه‌هاي ديجيتالي فارسي در شبكه جهاني است. با اين كه از شكل‌گيري كتابخانه‌هاي فارسي در شبكه جهاني مدت زيادي نمي‌گذرد، اما با اين حال به سرعت در حال رشد و گسترش است. شماري از اين كتابخانه‌ها در پايگاه‌هاي اينترنتي شكل گرفته‌اند و بسياري وبلاگ‌هايي هستند كه براي اين‌ كار راه‌اندازي شده‌اند. از ويژگي‌هاي اين‌ كتابخانه‌ها اين است كه هيچ‌ يك جنبه تجاري ندارند. آنچه در بسياري از كتابخانه‌هاي مجازي فارسي در دسترس است تنها شامل كتاب نيست، بلكه نوشته‌هايي اعم از داستان، مقاله، تك نگاشت و .... نيز در ميان مجموعه‌ها ديده مي‌شود. هم چنين آثاري كه احتمالاً هيچ گاه چاپ كاغذي ندارند و البته وجود كتاب‌هايي كه مدت‌هاست ناياب‌ هستند و مجال انتشار دوباره نيافته‌اند و يا آثاري كه امروز به دلايلي بازچاپ آن‌ها مقدور نيست، از جاذبه‌هاي كتابخانه‌هاي مجازي‌اند. پايگاه اينترنتي كتاب‌هاي رايگان فارسي، پايگاه اينترنتي باني تك، كتابخانه مجازي داستان‌هاي فارسي، آواي آزاد، پايگاه اينترنتي خوابگرد، كتابخانه دوات، پايگاه اينترنتي سخن، وبلاگ كتابخانه هرمس، پايگاه اينترنتي گفتمان، پايگاه تاريخ و فرهنگ ايران زمين، ‌پايگاه مركز جهاني اطلاع‌رساني آل البيت، كتابخانه پايگاه اينترنتي حوزه، پايگاه اينترنتي امام علي (ع)، پايگاه اينترنتي كتابخانه ديجيتال و .... شماري از اين كتابخانه‌ها هستند.

كاربران به دلايل مختلفي از قبيل «دسترسي آسان و ارزان به حجم عظيم اطلاعات، عدم نياز اطلاعات يافته شده از اينترنت به تايپ مجدد، دسترسي سريع و اطلاعات جديد، صرفه‌جويي در وقت و عدم تسلط اكثر كاربران به زبان انگليسي كه زبان غالب بر اينترنت است» به دنبال اطلاعات فارسي از اينترنت هستند. گسترش زبان و انبوهي از نوشتارها ايجاب مي‌كند كه خط ضابطه داشته باشد و از سوي ديگر پيشرفت فن‌آوري و پيدايش اينترنت خواستار ضابطه و قانونمندي است. اطلاع‌رساني كه جنبه بين‌الملي پيدا كرده است بدون دستورِ خطي سامان يافته و نظام‌مند ميسر نيست و دست‌كم بر دشواري‌ها مي‌آفريند. در حال حاضر وبلاگ‌هاي فارسي مقام دوم يا سوم را در جهان دارا مي‌باشد. به نظر دكتر آشوري، اگر زبان فارسي به همين صورت بي‌دقت در اينترنت به كار رود در سطح زباني براي تفنن باقي خواهد ماند و كم‌تر حرفي جدي به اين زبان زده خواهد شد. آينده زبان فارسي در اينترنت بستگي به اين دارد كه نويسندگان فارسي تا چه حد كار خود را جدي بگيرند و اين زبان را بازسازي كنند كه از لحاظ قدرت بيان و دقت مفاهيم و استواري ساختار دستوري به زبان انگليسي نزديك شود.

نبود استاندارد ثابت رسم‌الخط فارسي موجب اين شده است كه به تعداد صفحات وب فارسي سبك و سياق نگارش به كار رفته باشد، لذا مي‌توان چنين ارزيابي كرد كه اكثر وب‌هاي فارسي در برخي خصوصيات مشترك مي‌باشند از جمله اين كه نگارش برخي از آن‌ها زبان غيررسمي و محاوره‌اي است و به خصوص در متون علمي اغلب واژه‌هاي بيگانه به دفعات استفاده مي‌شود. رسم‌الخط مورد استفاده نيز متفاوت و سليقه‌اي است و برخي از آن‌ها غلط‌هاي تايپي و نگارشي فراواني دارند و اين خصوصيات، اغلب به جهت محدوديت‌هاي محيط الكترونيكي و عدم تطابق رسم‌الخط فارسي با آن مي‌باشد كه نمايه‌سازي و سپس جستجو به اين زبان را با دشواري‌هايي رو به رو مي‌سازد.

با توجه به اين نكته كه اطلاعات ارزشمند فراواني در اينترنت وجود دارد و اينترنت با شتابي فراوان به يك منبع اطلاعاتي ممتاز تبديل شده است. موتورهاي جستجو به عنوان يكي از اساسي‌ترين دروازه‌هاي ورود به منابع اينترنتي داراي ضعف‌هايي هستند كه مي‌توان به اين موارد اشاره كرد:

- در يك مجموعه از يافته‌هاي بازيابي شده مدخل‌هاي تكراري فراواني ملاحظه مي‌شود.

- نتايج غير قابل پيش‌بيني هستند.

- نتايج چه بسا گمراه كننده باشند؛ ممكن است جستجويي در يك موتور كاوش نتيجه‌اي نداشته، ولي در موتور ديگر داراي يافته‌هاي فراوان باشد.

- موتورهاي كاوش محتويات پايگاه‌هاي اطلاعاتي خودشان را نشان نمي‌دهند و از معيارهايي كه براي گنجاندن يك مدرك در فايل‌هايشان دارند حتي شرحي ارايه نمي‌كنند.

- مهار واژگاني وجود ندارد و قواعد نقطه‌گذاري و بزرگ‌نويسي نيز استاندارد نيست.

- بدون بررسي عملي هر عنصر، اغلب نمي‌توان ميزان ربط و رابطه‌ها را تحليل كرد. يعني اطلاعات كافي در مدخل نمايه نيست تا فرد بتواند دست به انتخاب بزند.

- عدم توان موتورهاي جستجو در تمايز ميان مداركي كه توسط فرد الف نوشته شده و مداركي كه درباره فرد الف نوشته شده است.

- منابع قابل توجهي در شبكه وب وجود دارند كه توسط موتورهاي جستجو نمايه نمي‌شوند. به اين بخش از وب اصطلاحاً وب نامريي مي‌گويند. «وب نامريي بخش بزرگي از وب است كه موتورهاي جستجو آن‌ها را نمي‌توانند نمايه كنند و عبارتند از: سايت‌هاي داراي رمز عبور، فايل‌هاي پي.دي.اف از متون آرشيو شده، ابزارهاي تعاملي نظير ماشين حساب‌ها و برخي از واژه‌نامه‌ها و هم‌چنين بعضي از پايگاه‌هاي اطلاعاتي، منابع محافظت شده از طريق اسم كاربر و گذر واژه، منابع و صفحات وب بدون پيوند و صفحات افزون بر حداكثر تعداد صفحات قابل مرور.»

جستجوي اطلاعات در اينترنت به دو روش مي‌تواند صورت گيرد يكي استفاده از جملات زبان محاوره‌اي است و ديگري بكارگيري كلمات كليدي. در روش استفاده از جملات زبان محاوره‌اي كه اغلب به كاربران تازه‌كار پيشنهاد مي‌شود. يكي از عيب‌هاي بزرگ اين روش تعداد نتايج جستجوي زيادي است كه بازگردانده مي‌شود. به همين دليل اين روش توسط كاربران حرفه‌اي و حتي توسط همه، كم‌تر استفاده مي‌شود.

يكي از كاراترين و مقتدرترين روش‌هاي جستجوي اطلاعات در دنياي وب استفاده از واژه‌هايي است كه اصطلاحاً كلمات كليدي ناميده مي‌شوند. اغلب كاربران حرفه‌اي و جستجوگران ورزيده دنياي اينترنت مي‌توانند با طرح بهترين كلمات كليدي و بكار بستن قوانين تركيب آن‌ها با هم براي نيازهاي اطلاعاتي خود پاسخي در خور بيابند. در اين روش توصيه‌هاي زير براي انتخاب كلمات كليدي و نيز جستجوي دقيق و مفيد پيشنهاد مي‌شود كه بشرح ذيل است:

1- حتي‌المقدور سعي شود كلمات كليدي از ميان اصطلاحات منحصر به فرد و اسامي خاص انتخاب شود.

2- حتي‌المقدور از آوردن كلمات عمومي كه عناوين بسياري را در زير مجموعه خود شامل مي‌شوند، جداً خودداري كنيد.

3 – هميشه اسم شخص يا نام شي يا هر چيز ديگري را كه مد نظر داريد به‌طور كامل وارد كنيد.

4 – دقت كنيد كه اگر موتور جستجو ميان حروف بزرگ و كوچك تفاوتي مي‌گذارد، اين مسأله را در طرح كلمات كليدي خود مدنظر داشته باشيد.

5 – در نظر داشته باشيد اگر نتيجه جستجو صفر بود به احتمال زياد مي‌تواند از يك اشتباه تايپي باشد.

6 – اگر املاي صحيح و كامل كلمه‌اي را نمي‌دانيد از كاركتر جانشين كه اغلب * و يا ؟ است استفاده كنيد.

7 – اگر يك كلمه كليدي را براي طرح دقيق و تمام و كمال يك مورد جستجو كفايت نمي‌كند، از تكنيك‌هاي جستجوي عبارتي، استفاده از اپراتورهاي جبر بولين (AND, OR, NOT) استفاده كنيد. جستجوي عبارتي يكي از مهم‌ترين و قدرتمندترين امكانات جستجو در اغلب موتورهاي جستجو مي‌باشد و مي‌توان يك عبارت يا جمله مشخص را به همان ترتيبي كه كلمات وارد شده‌اند مورد جستجو قرار داد. براي اين روش جستجو عبارت مورد نظر را داخل گيومه"" بگذاريد.

8 - استفاده از عملگر AND : AND به مفهوم "و" براي محدود كردن دامنه جستجو از طريق تركيب كليد واژه‌هاي مختلف به كار مي‌رود و براي تركيب كليدهاي جستجو زماني ‌كه براي شما مهم است كه دو يا چند كلمه كليدي حتماً وجود داشته باشد و علامت آن در پايگاه‌هاي مختلف به صورت استفاده از عبارت AND، استفاده از + ، انتخاب عبارت ALL THE WORD از منو، انتخاب عبارت (MATCH ON ALL WORDS AND) به‌وسيله كليك كردن بر روي دكمه‌هاي راديويي است.

9– استفاده از عملگر OR: اپراتور OR به مفهوم "يا" و برخلاف عملگر AND باعث گسترش دامنه جستجو و بازيابي اطلاعات بيش‌تر شده براي تركيب كليد واژه‌هاي جستجو زماني كه انتظار داريد تنها يك، دو يا چند كلمه كليدي حضور داشته باشند و علامت آن استفاده از عبارت OR، نحوه‌ي اجراي ساده و معمولي آن، انتخاب عبارت ANY OF THE WORDS از منو، انتخاب عبارت (MATCH ON ANY WORDS OR) با كليك بر روي دكمه‌هاي راديويي مي‌باشد. يكي از كاربردهاي مهم اين عملگر پوشش مفاهيم يا اصطلاحات مترادف، مرتبط يا با املاهاي متفاوت است.

10 – استفاده از عملگر NOT: اپراتور NOT به مفهوم "نه" و يا به جز كه در اين صورت تمامي جواب‌هاي بازگشتي كه حاوي عبارت يا كلمه كليدي هستند حذف خواهند گرديد و براي اجراي آن تنها كافيست كه NOT را قبل از عبارت يا كلمه كليدي مورد نظرتان با يك فاصله بياوريد.

11 – استفاده از كوتاه‌سازي كليد واژه‌ها: اين تكنيك به ما امكان مي‌دهد كه با وارد كردن بخشي از يك كليد واژه بتوانيم مشتقات مختلف آن را نيز در فرآيند جستجو بازيابي كنيم. اكثر موتورهاي جستجو اين تكنيك را با استفاده از علامت ستاره (*) ارايه مي‌دهند. يكي از مشكلات استفاده از اين تكنيك اين است كه باعث بازيابي اطلاعات غيرمرتبط و ناخواسته زيادي مي‌شود.

12 – استفاده از عملگر نزديك‌يابي: در بسياري از موارد استفاده از عملگر AND باعث بازيابي اطلاعاتي مي‌شود كه براي ما مفيد نيست. به اين دليل كه اين عملگر كليد واژه‌ها را در هر كجاي متن كه باشند بازيابي مي‌كند. در اين موارد استفاده از تكنيك نزديك‌يابي مي‌تواند از ريزش كاذب اطلاعات و يا بازيابي اطلاعات غيرمرتبط جلوگيري نمايد. همه موتورهاي جستجو قابليت استفاده از اين تكنيك را ندارند ولي به عنوان مثال در موتور جستجوي آلتاويستا مي‌توان با استفاده از عملگر NEAR از اين تكنيك استفاده نمود.

13 – جستجوي تركيبي با استفاده از پرانتز: اين تكنيك يكي از مهم‌ترين تكنيك‌هاي جستجو مي‌باشد كه به وسيله آن مي‌توان تا حدود زيادي از بازيابي موارد غيرمرتبط در محيط وب جلوگيري كرد. در اين روش مي‌توان از همه عملگرهاي جستجو كه در بالا گفته شده يك‌جا استفاده كرد و آن‌ها را با هم‌ديگر تركيب نمود.

14 – جستجوي كليدواژه در عنوان صفحات وب: اين تكنيك با اين پيش فرض كه عنوان يك صفحه وب تا حدود زيادي نمايان‌گر محتواي اطلاعات موجود در آن است به جستجوي واژه‌هاي كليدي در عنوان سايت‌ها مي‌پردازد. علامت آن در موتورهاي جستجو متفاوت است ولي اغلب موتورهاي جستجو از طريق فهرست انتخابي و يا گزينه‌هاي ديگر اين امكان را فراهم مي‌آورند.

15 – جستجوي حوزه سايت‌ها: با توجه به اين‌ كه به صورت قراردادي هر كشوري حوزه خاصي در محيط وب دارد، قابليت جستجوي حوزه سايت‌ها به ما اين امكان را مي‌دهد كه فرايند جستجو را به حوزه خاصي نظير سايت‌هاي وب ايران (IR) و يا سايت‌هاي وب سازمان‌هاي غير انتفاعي (ORG) محدود كنيم. دستورات استفاده از اين تكنيك در موتورهاي جستجو مختلف مي‌باشد.

16 – محدود كردن جستجو به زبان‌هاي مختلف باعث مي‌شود نتايج جستجو به زبان‌هاي ديگر آورده نشود و انتخاب مطلب مورد نظر آسان‌تر است.

17 – محدود كردن جستجو به تاريخ انتشار منابع در وب: تاريخ انتشار يا به اصطلاح روزآمدي مطلب به خصوص در منابع علمي اصل مهمي است و اين‌گونه محدوديت باعث مي‌شود بنا به نياز كاربر جديدترين و يا قديمي‌ترين منبع بازيابي بشود.

18 – جستجوي رسانه‌هاي مختلف؛ موسيقي، عكس، ويدئو: زماني‌ كه فقط نوع خاصي از رسانه مورد نياز است به عنوان مثال زماني كه به عكس يك شخصيت نياز داريم، جستجو در ميان عكس‌ها باعث مي‌شود نتيجه جستجو شامل اطلاعات ديگري در مورد آن شخصيت نباشد.

19 – جستجوي صفحات با فرمت‌هاي مختلف: PDF, WORD, MP3, MPEG, ….: زماني كه فرمت خاصي مورد نظر است مي‌توان از اين تكنيك استفاده كرد . به عنوان مثال اگر مايل باشيم منبع بازيابي شده در فرمت PDF باشد، اين تكنيك مي‌تواند مفيد باشد.

20 – آگاهي از پيش‌فرض‌هاي جستجو در موتور جستجو: با توجه به اين كه هر موتور جستجو براي تركيب واژه‌ها يك پيش‌فرض دارد و اگر از هيچ گونه عملگري استفاده نشود، كليد واژه‌ها را به صورت پيش‌فرض با يكي از عملگرهاي جبر بولي تركيب مي‌كند؛ آگاهي از اين پيش‌فرض‌ موتورهاي جستجوي مختلف مهارت ما را در جستجو بالا مي‌برد.

21 – وب نامريي: وب نامرئي به دو دليل كمي و كيفي اهميت دارد كمي از اين نظر كه موتورهاي جستجو فقط قادر هستند حدود 16 درصد از اطلاعات موجود در اينترنت را بازيابي كنند و اندازه وب نامريي تقريبا 500 برابر وب مريي است و كيفي از اين نظر كه منابع اطلاعاتي موجود در وب عميق معمولا ارزشمند و مفيد هستند و در بسياري از موارد پاسخ‌گوي نياز كاربران مي‌باشند. آشنايي با ابزارهايي كه براي شناسايي منابع وب نامريي به وجود آمده‌اند و كاربران را به سايت‌هاي مناسب راهنمايي مي‌كنند، باعث دسترسي به اين بخش عظيم از اطلاعات مفيد و ارزشمند مي‌شود. مثل سايت INVISIBLEWEB كه فهرستي از منابع نامريي را و سايت COMPLETEPLASET كه فهرستي از تقريبا 40000 پايگاه اطلاعاتي وب نامريي را ارايه مي‌دهد.

منبع : ايسنا
2 پيام
[Anonymous Anonymous] [3:14 AM]
تشكر از لينك .. بهتون لينك ثابت دادم .
[Anonymous Anonymous] [8:43 PM]
اين مقاله را خبرگزاري ايسنا با زير پا گذاشتن همه اصول اخلاقي و حذف نام نويسنده "آقاي محمد صابر راثي ساربانقلي" بطور ناقص منتشر كرده است .
اصل مفاله را در اين نشاني ببينيد:
http://www.irandoc.ac.ir/data/e_j/vol5/rasi.htm

Post a Comment
<< صفحه‌ی اصلی

 
Bottom