Prywatne repozytoria GitHub nadal dostępne za pośrednictwem drugiego pilota po ustawieniu ich jako prywatne

Badacze zajmujący się bezpieczeństwem odkryli, że tysiące repozytoriów GitHub, które kiedyś były publicznie dostępne, ale od tego czasu stały się prywatne, nadal są dostępne za pośrednictwem narzędzi opartych na sztucznej inteligencji, takich jak GitHub Copilot. Kwestia ta podkreśla ciągły charakter ujawniania danych w Internecie, gdzie informacje, nawet jeśli są przez krótki czas publiczne, mogą być przechowywane i wykorzystywane przez generatywne systemy sztucznej inteligencji długo po ich ograniczeniu.

GitHub Copilot, opracowany przez GitHub we współpracy z OpenAI i Microsoft, to asystent kodowania oparty na sztucznej inteligencji, który sugeruje programistom fragmenty kodu i uzupełnienia. Został przeszkolony na ogromnym zbiorze publicznie dostępnego kodu, co umożliwiło mu dostarczanie sugestii odpowiednich kontekstowo. Jednak te dane szkoleniowe obejmują kod z repozytoriów, które były publiczne w momencie szkolenia, ale od tego czasu stały się prywatne. W rezultacie Copilot może nadal generować sugestie kodu w oparciu o zawartość tych, obecnie prywatnych repozytoriów.

Sytuacja ta budzi poważne obawy dotyczące prywatności i bezpieczeństwa danych. Programiści, którzy nieumyślnie ujawnili poufne informacje w publicznych repozytoriach, nawet na krótki czas, mogą odkryć, że dane te zostały przetworzone przez modele sztucznej inteligencji i nadal można uzyskać do nich pośredni dostęp za pośrednictwem narzędzi takich jak Copilot. Podkreśla to znaczenie zachowania ostrożności podczas publicznego udostępniania kodu oraz wyzwania związane z całkowitym wycofaniem informacji, gdy zostaną one ujawnione w Internecie.

W odpowiedzi na te obawy GitHub wdrożył funkcje zwiększające przejrzystość i kontrolę nad sugestiami kodu generowanymi przez sztuczną inteligencję. Na przykład program Visual Studio obsługuje teraz odwoływanie się do kodu w przypadku uzupełnień GitHub Copilot, umożliwiając programistom sprawdzanie, czy sugestie opierają się na kodzie publicznym, co może mieć wpływ na licencjonowanie. Ta funkcja zapewnia szczegółowe informacje na temat wszelkich znalezionych dopasowań kodu publicznego, umożliwiając programistom podejmowanie świadomych decyzji dotyczących włączania sugerowanego kodu do swoich projektów.

Pomimo tych środków incydent ten przypomina o trwałym charakterze danych po ich upublicznieniu. Programistom zaleca się dokładne przejrzenie kodu pod kątem wrażliwych informacji przed ich upublicznieniem i miej świadomość, że nawet po upublicznieniu repozytorium wcześniej ujawnione dane mogą nadal być dostępne za pośrednictwem narzędzi sztucznej inteligencji przeszkolonych na wcześniejszych danych publicznych.

Zobacz także:Copilot dla Windows 11 otrzymuje ulepszone wyszukiwanie plików i Copilot Vision

Źródło:Techcrunch