Выпущен Piiranha-v1: модель открытого кода для обнаружения личной информации с точностью обнаружения токенов 98,27%
Команда Internet Integrity Initiative Team сделала значительный шаг в области конфиденциальности данных, выпустив модель Piiranha-v1, специально разработанную для обнаружения и защиты личной информации. Этот инструмент создан для идентификации лично-идентифицируемой информации (ЛИИ) в широком спектре текстовых данных, предоставляя важную услугу во времена, когда цифровая конфиденциальность является приоритетной.
Основные характеристики Piiranha-v1:
- Модель весом 280M создана для обнаружения ЛИИ и выпущена под лицензией MIT;
- Поддерживает шесть языков: английский, испанский, французский, немецкий, итальянский и голландский;
- Достигает почти 100% точности обнаружения токенов ЛИИ и 99,44% общей точности классификации;
- Имеет высокую эффективность в обнаружении 17 типов ЛИИ, включая 100% точность для электронных адресов и почти 100% точность для паролей.
Практическое применение: Piiranha-v1 может использоваться в различных областях, особенно в организациях, обрабатывающих большие объемы персональных данных, таких как финансовые учреждения, медицинские учреждения и технологические компании. Интеграция Piiranha-v1 в их обработку данных позволит автоматически выделять и скрывать конфиденциальную информацию, уменьшая риск утечек данных и обеспечивая соответствие приватности, такие как GDPR и CCPA.
Открытый доступ: Модель Piiranha-v1 также доступна для развертывания через платформу Hugging Face и распространяется под лицензией Creative Commons BY-NC-ND 4.0, что позволяет широкое использование в рамках некоммерческих приложений.
В заключение, Piiranha-v1 представляет собой значительный прорыв в обнаружении ЛИИ. Его высокая точность, поддержка нескольких языков и гибкие возможности применения делают его ценным инструментом для любой организации, стремящейся улучшить свои усилия по обеспечению конфиденциальности данных.