ثبت بازخورد

لطفا میزان رضایت خود را از دیجیاتو انتخاب کنید.

واقعا راضی‌ام
اصلا راضی نیستم
چطور میتوانیم تجربه بهتری برای شما بسازیم؟

نظر شما با موفقیت ثبت شد.

از اینکه ما را در توسعه بهتر و هدفمند‌تر دیجیاتو همراهی می‌کنید
از شما سپاسگزاریم.

بایدو
هوش مصنوعی

بایدو از مدل هوش مصنوعی PP-OCRv5 رونمایی کرد؛ متخصص خواندن متن

این مدل از بیش از ۴۰ زبان پشتیبانی می‌کند.

حمید گنجی
نوشته شده توسط حمید گنجی تاریخ انتشار: 2 ساعت قبل

بایدو پس از معرفی مدل Ernie X1.1، حالا مدل جدید PP-OCRv5 را منتشر کرده است. PP-OCRv5 یک مدل تشخیص نوری حروف (OCR) است که هم‌اکنون از طریق Hugging Face در دسترس کاربران قرار دارد.

به گزارش گیزموچاینا، نکته‌ای که این مدل را از رقبا متمایز می‌کند توانایی بسیار خوب آن در خواندن متون است. همچنین این مدل سبک و کم حجم طراحی شده. یکی از ضعف‌های مدل‌های بزرگ بینایی زبان این است که بعضاً در انجام کار دقیق و جزئی مانند خواندن متن‌های ساختاریافته با مشکل مواجه می‌شوند. اما PP-OCRv5 می‌تواند چنین مشکلی را برای کاربران حل کند.

با قابلیت‌های مدل هوش مصنوعی PP-OCRv5 از بایدو آشنا شوید

مدل هوش مصنوعی PP-OCRv5 به طور خاص برای دور زدن این محدودیت‌ها طراحی شده است. این مدل در دو مرحله اصلی کار می‌کند، یعنی در ابتدا موقعیت متن را در تصویر پیدا می‌کند و سپس خود متن را می‌خواند.

این رویکرد به مدل کمک می‌کند تا مشخص کند متن دقیقاً در کجا قرار دارد. همچنین این روش برای استخراج داده‌ها از اسناد یا تحلیل فرم‌ها بسیار کاربردی است. مدل PP-OCRv5 فقط ۰.۰۷ میلیارد پارامتر دارد که در مقایسه با مدل‌های شناخته‌شده این حوزه بسیار کوچک است.

بایدو این مدل را روی سیستم‌های موبایل آزمایش و مشاهده کرده که می‌تواند بیش از ۳۷۰ کاراکتر در ثانیه روی پردازنده اینتل Xeon پردازش کند. این یعنی می‌توان این مدل را روی کامپیوترهای معمولی یا حتی دستگاه‌های لبه فناوری بدون نیاز به دیتاسنترهای بزرگ اجرا کرد.

بایدو PP-OCRv5 را در وظایف OCR با برخی مدل‌های شناخته‌شده مانند جمینای ۲.۵ پرو و GPT-4o مقایسه کرده و این مدل توانسته عملکرد خوبی از خود نشان دهد. همچنین این مدل می‌تواند هم متون چاپی و هم دست‌نویس را به‌خوبی پردازش کند و در مجموع از بیش از ۴۰ زبان پشتیبانی می‌کند.

بایدو این مدل را از طریق Hugging Face در دسترس همه قرار داده است و توسعه‌دهندگان می‌توانند به‌راحتی از آن استفاده کنند.

حمید گنجی

دیدگاه‌ها و نظرات خود را بنویسید
مطالب پیشنهادی