
دیتاست یک میلیون آگهی املاک «دیوار» متنباز منتشر شد
این دیتاست نخستین مجموعهٔ ساختارمند در حوزهٔ املاک به زبان فارسی محسوب میشود.

پلتفرم «دیوار» دیتاست یک میلیون آگهی املاک منتشرشده در این پلتفرم را در Hugging Face به صورت متنباز و گمنامسازیشده منتشر کرد.
دیوار در توضیح این اقدام خود میگوید: «این دیتاست نخستین مجموعه ساختارمند در حوزه املاک به زبان فارسی محسوب میشود و از نظر حجم، کیفیت و تمیز بودن دادهها، ابعاد قابل توجهی دارد.»
این اطلاعات بخشی از آگهیهایی را در بر میگیرد که در میانه سال ۱۴۰۳ فعال بوده و از میان شهرها و محلههای مختلف، بهصورت تصادفی انتخاب شدهاند. دیوار تأکید میکند که «برای حفظ حریم خصوصی کاربرانش، تمامی اطلاعات شخصی که ممکن بود به شناسایی افراد منجر شود، از این دیتاست حذف شده و صرفاً دادههایی که خود کاربر اجازه انتشار آنها را داده بود، منتشر شده است.»
این دادهها میتواند پایهای برای تیمهای پژوهشی، محققان دانشگاهی و استارتاپهای فعال در حوزه پراپتک (Property Tech) ایران باشد که در زمینه توسعه و ساخت مدلهای هوشمند تخمین قیمت، طراحی سیستمهای توصیهگر ملک، تحلیل متن و استخراج کلیدواژهها و پژوهشهای مرتبط با اقتصاد مسکن فعالیت میکنند. این حجم داده برای تقویت مدل زبانی فارسی نیز کاربرد دارد و میتواند در توسعه ابزارهای هوش مصنوعیِ فارسی مؤثر باشد.
برای استفاده از این مجموعه داده میتوانید به وبسایت Hugging Face مراجعه کنید.
برای گفتگو با کاربران ثبت نام کنید یا وارد حساب کاربری خود شوید.