دلیل پیاده سازی HyperLogLog در ردیس

سلام، وقتتون بخیر.

امیدوارم حالتون عالی باشه.

الگوریتم HyperLogLog طبق برداشت من برای این استفاده میشه که ما توی یه مجموعه داده بزرگی که داریم بتونیم با یه درصد خطای پایین و مصرف مموری خیلی پایین موارد منحصر به فرد رو پیدا بکنیم.

سوالی که دارم اینه که برای تشخیص دادن اینکه یک مقدار یونیک هست یا نه مگه نباید کل مجموعه‌ای که تا الان insert شده رو داشته باشیم؟ (که بتونیم تشخیص بدیم قبلا این مورد اضافه شده یا نه)

پس چرا ردیس باید این الگوریتم رو داخل خودش پیاده سازی بکنه؟ (ذخیره کردن آیتم‌ها توی مموری خب خیلی هزینه بره و هدف الگوریتمم اینه که با مموری کم اینکار رو انجام بده!)