En el cas de les dades, hem construït un Així que sí, sabem una cosa o dues sobre com els usuaris amb necessitats totalment diferents (i de tots els racons del món) toquen les dades web. limitless web data infrastructure for AI & BI Ara, quan es tracta d'accedir a dades web d'alta qualitat, hi ha un trio de potència que necessiteu saber. Els bons, els dolents i els dolents... Estem parlant de: El foc Xàtiva ️ MCP Ha arribat el moment d'entendre aquests tres enfocaments, per a qui estan construïts, i com iniciar-se a través de les perspectives accionables! API: el pont flexible cap a les dades web Quan penses » “El primer que em ve al cap és el » » Integració El foc Ja sigui que esteu escrivint un backend, una aplicació frontend o un script, la integració amb serveis de tercers sol ser només una trucada d'API. Les dades són clares, la majoria Estan disponibles a través de API: Productes de Bright Data Web Scraper API → Treu dades estructurades de més de 120 llocs. Cap proxy, cap problema, només neteja els resultats a la demanda. API del navegador → Executa els scripts de Playwright, Puppeteer o Selenium a escala amb captcha-solving, rotació de proxy i configuració zero. Web Unlocker API → Digues adéu als blocs i CAPTCHA. Pagar només per resultats reeixits, i raspallar globalment sense aixecar un dit. API de SERP → Obteniu resultats de cerca geogràfics de Google, Yandex i més - completament analitzats i llestos per a l'ús. Crawl API → Defineix una URL arrel i agafa llocs sencers en HTML, JSON, Markdown o text senzill. Hi ha una raó, si diu “API” en el nom del producte... El fet que Les APIs han estat l'estàndard durant anys (per tant, no cal que et molesti amb els detalls evidents 😉). all those services are available via API El proveïdor (Bright Data, en aquest cas) gestiona l'arquitectura, l'escalabilització, les actualitzacions, les implementacions, la lògica de desbloqueig ... totes les coses complicades que normalment donen mals de cap als desenvolupadors. ! Funcionalitat Aquí, la funcionalitat significa l'accés desbloquejat, gratuït, infinitament simultani a la web. L’actiu més valuós de la Terra! web data Gràcies a la seva gran flexibilitat, com Deloitte o McDonald’s. Amb APIs, no hi ha límits al que es pot construir! APIs work for individual developers, small to mid-sized companies, and even enterprises Començar Crear un compte de dades brillants, . configurar una zona de Web Unlocker i obtenir la clau API de dades brillants A continuació, testeu-ho trucant a Web Unlocker (un dels serveis de raspat disponible a través de l'API) a través d'aquest fragment de Python: # pip install requests import requests headers = { # Step 1: Get your API token here: https://brightdata.com/cp/setting/users "Authorization": "Bearer <YOUR_BRIGHT_DATA_API_TOKEN>", "Content-Type": "application/json" } data = { # Step 2: Get your Web Unlocker zone name here: https://brightdata.com/cp/zones "zone": "web_unlocker1", # Step 3: Set your target URL "url": "https://www.scrapingcourse.com/cloudflare-challenge", "format": "raw" } # Make a POST request to the Bright Data Web Unlocker API url = "https://api.brightdata.com/request" response = requests.post(url, json=data, headers=headers) # Print the API response print(response.text) El resultat serà una cosa així: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv="X-UA-Compatible" content="ie=edge"> <title>Cloudflare Challenge - ScrapingCourse.com</title> <!-- ... --> </head> <body data-new-gr-c-s-check-loaded="14.1174.0" data-gr-ext-installed="" itemscope itemtype="http://schema.org/WebPage"> <header itemscope itemtype="http://schema.org/WPHeader"> <!-- ... --> </header> <div class="challenge-info bg-[#EDF1FD] rounded-md p-4 mb-8 mt-5" id="challenge-info" data-testid="challenge-info" data-content="challenge-info"> <div class="info-header flex items-center gap-2 pb-2" id="info-header" data-testid="info-header" data-content="info-header"> <img width="25" height="15" src="https://www.scrapingcourse.com/assets/images/challenge.svg" data-testid="challenge-image" data-content="challenge-image" alt="Challenge Icon"> <h2 class="challenge-title text-xl font-bold" id="challenge-title" data-testid="challenge-title" data-content="challenge-title"> You bypassed the Cloudflare challenge! :D </h2> </div> </div> <!-- ... --> </body> </html> Boom! 💥 Això és l'HTML desbloquejat per Web Unlocker, llest per analitzar i extreure. Llegeix més en aquest vídeo: https://www.youtube.com/watch?v=N3DkHwqSweA&embedable=true SDK: El conjunt d'eines del desenvolupador per a les dades web Apel·lar punts finals d'API directament li dóna El control màxim Però siguem reals... també ve amb temps de desenvolupament més llargs, gestió d'errors i actualitzacions cada vegada que canvien les API. Això és on Un SDK simplifica l'accés als vostres productes i serveis preferits sense tota la caldera. SDKs come in! https://www.youtube.com/watch?v=kG-fLp9BTRo&embedable=true En concret, la és una biblioteca de codi obert que us permet trucar a les eines de raspat i cerca de Bright Data amb trucades de mètode única! Bright Data Python SDK Bright Data Python SDK Sí que, Molt més senzill que elaborar sol·licituds d'API brutes. A la inversa, estàs limitat al que exposa l'SDK en termes de mètodes i configuracions disponibles. a single method! ️ : Actualment, l'SDK només està disponible per a Això vol dir que si estàs codificant en altres idiomes, no podràs aprofitar-ho. Note Python and JavaScript JavaScript De totes maneres, trucar a un mètode i tornar a obtenir les dades web preparades per a l'ús encara és bastant dolç. 😎 Vols descobrir tots els mètodes de SDK disponibles? Method Feature Description scrape() Scrape websites Scrape any website with Bright's anti-bot bypass capabilities search() Web search Query Google and other search engines (supports batch searches) crawl() Web crawling Discover and scrape multiple pages with filtering and depth control extract() AI data extraction Extract specific info using natural language queries and OpenAI parse_content() Content parsing Extract text, links, images, and structured data from JSON or HTML connect_browser() Browser automation Get a WebSocket endpoint for Playwright/Selenium integration search_chatGPT() ChatGPT search Prompt ChatGPT, scrape answers, and handle follow-ups , , , scrape_linkedin.posts() scrape_linkedin.jobs() scrape_linkedin.profiles() scrape_linkedin.companies() Scrape LinkedIn Scrape LinkedIn and get structured data , download_snapshot() download_content() Download web data from snapshots Download content for sync or async requests scrape() Llocs web de Scrape Raspallar qualsevol lloc web amb les capacitats de bypass anti-bot de Bright search() Cerca web Google Query i altres motors de cerca (suporta les cerques de lot) crawl() Web de Crawling Descobreix i raspa múltiples pàgines amb filtració i control de profunditat extract() Extracció de dades Extracció d'informació específica utilitzant consultes de llenguatge natural i OpenAI parse_content() Continguts Parsons Extracció de text, enllaços, imatges i dades estructurades de JSON o HTML connect_browser() Automatització del navegador Obtenir un punt final WebSocket per a la integració Playwright/Selenium search_chatGPT() Busca de ChatGPT Prompt ChatGPT, raspallar respostes i gestionar seguiments , , , scrape_linkedin.posts() scrape_linkedin.jobs() scrape_linkedin.profiles() scrape_linkedin.companies() Descarregar Linkedin Raspallar LinkedIn i obtenir dades estructurades , download_snapshot() download_content() Descarregar dades web des de snapshots Descarregar contingut per a sol·licituds de sincronització o async : Consulteu els documents, ja que aviat es poden afegir nous mètodes! Disclaimer Començar Instal·lació del Bright Data Python SDK: pip install brightdata-sdk Passem-ho a la classe (o posar-la en el variable del medi ambient), i raspallar un lloc web del món real com ESPN trucant un sol mètode: Obteniu la vostra clau API de dades brillants amb Admís Permisos bdclient BRIGHTDATA_API_TOKEN Admís # pip install brightdata-sdk from brightdata import bdclient # Initialize the Bright Data SDK client = bdclient(api_token="<YOUR_BRIGHT_DATA_API_KEY>") # The API key can also be defined as a BRIGHTDATA_API_TOKEN environment variable # The target page page_url = "https://www.espn.com/tennis/story/_/id/46190196/carlos-alcaraz-defeats-rival-jannik-sinner-us-open" # Scrape a news article and print it news = client.scrape( url=page_url, data_format="markdown", # Parse the result to Markdown ) print(news) El resultat serà: Carlos Alcaraz defeats rival Jannik Sinner at US Open - ESPN (...) NEW YORK -- Three years after winning his first major title and becoming the youngest No. 1 player in history, \[Carlos Alcaraz\](https://www.espn.com/sports/tennis/players/profile?playerId=3782) reclaimed his place atop the sport with another win at the US Open. On Sunday, facing rival \[Jannik Sinner\](https://www.espn.com/sports/tennis/players/profile?playerId=3623) for the third straight major final, Alcaraz, from Spain, utilized his powerful forehand, ever-improving serve and electric athleticism for a 6-2, 3-6, 6-1, 6-4 victory in a relatively swift 2 hours, 42 minutes. In doing so, he took back the world's top ranking from Sinner, after a 65-week run, and extended his head-to-head record to 10-5 over the Italian player. After Alcaraz secured the win with an ace on his third championship point, he threw his hands in the air above his head before crouching over on his knees with his trademark smile radiating across his face. Seconds later, he was hugging Sinner at the net and the two -- who have a friendly relationship -- had their arms around each other as they walked off the court. (omitted for brevity...) U-n-b-e-l-i-e-v-a-b-l-e MCP: la primera porta lliure a les dades web API, SDK... sí, no hi ha res de nou. APIs són perfectes per a integracions personalitzades en qualsevol llenguatge de programació. SDK? Excel·lent per a la integració directa en piles de tecnologia específiques. Però què passa si voleu sobrecarregar la IA amb la recuperació de dades web? Segur que tu construir sobre APIs (o fins i tot un SDK) per crear funcions preparades per a la IA per a marcadors com LangChain, Hugging Face, LlamaIndex, CrewAI i similars. No és exactament el que voleu quan tracteu amb la IA, que es mou massa ràpid per perdre temps. Podria boilerplate code and slow integrations https://www.youtube.com/watch?v=7j1t3UZA1TY&embedable=true Ara imagineu una manera de connectar les solucions de recerca web, extracció i recuperació de dades més potents de Bright Data a l'IA... amb zero esforç i (Sí, ho has llegit bé 😉 ) Per a tu! No càrrega Bright Data’s Web MCP server Servei web MCP de Bright Data MCP és un protocol d'IA obert que estàndarditza com les aplicacions i els agents d'IA es connecten i utilitzen eines externes, com els productes en el sistema. bàsicament : Infraestructures de dades brillants Install the Web MCP locally. Configure it in CLI solutions like Gemini CLI or Claude Code, AI agent frameworks like CrewAI or LangChain, or desktop AI chat apps like Claude Desktop. The AI agent immediately gains access to these two tools ( ): for free! Per a gratuïts! Tool Description search_engine Scrape search results from Google, Bing, or Yandex. Returns SERP results in (URL, title, description). Markdown scrape_as_markdown Scrape a single webpage URL with advanced content extraction. Returns results in . Works even on pages with bot detection or CAPTCHA. Markdown search_engine Esborrar els resultats de la cerca de Google, Bing o Yandex. Retorna els resultats de SERP en (URL, el títol i la descripció) Markdown scrape_as_markdown Raspallar una única URL de pàgina web amb extracció de contingut avançada. Retorna resultats en Funciona fins i tot en pàgines amb detecció de bot o CAPTCHA. Markdown En breu: — tasques que els LLM normalment lluiten amb. 🔥 your AI agents can now search the web and scrape any page I això és només el principi.Financieu el vostre compte de Bright Data, habiliteu , , incloent la interacció del navegador en núvol, l'automatització web i molt més. Per la moda unlock ~50 more advanced tools El servidor MCP web Bright Data també funciona remotament, donant suport als fluxos de treball d'IA en qualsevol lloc, en qualsevol moment. Cool note Començar Agafeu la clau API de Bright Data i utilitzeu-la per configurar el servidor MCP de Bright Data Web en la majoria de tecnologies amb una configuració com aquesta: { "mcpServers": { "Bright Data": { "command": "npx", "args": ["-y", "@brightdata/mcp"], "env": { "API_TOKEN": "<YOUR_BRIGHT_DATA_API_KEY>" } } } } I així mateix, el vostre agent ara té accés a tota una sèrie de noves característiques, tal com vam cobrir aquí a HackerNoon: MCP + OpenAI Agents SDK: Com construir un potent agent d'IA. MCP + OpenAI Agents SDK: Com construir un potent agent d'IA Si no, vegeu l'acció Web MCP aquí: https://www.youtube.com/watch?v=W99pmJLM90I API vs SDK vs MCP per a dades web: Taula de resum Method Project Size Target Audience Platform Control Integration Difficulty Price API From small to large projects Individual developers, small teams, large teams Any programming language or solution that can make an API call Maximum Medium Pay only for successful requests SDK Mainly small to medium projects Python/JavaScript developers, small teams Python and JavaScript/Node.js projects Medium Low Free SDKs, then pay for successful requests only MCP AI agent projects of any size AI enthusiasts, vibe coders Any AI framework or solution supporting MCP integration Low (as AI does its magic) Very low Free (with premium tools available) API De petits a grans projectes Desenvolupadors individuals, petits equips, grans equips Qualsevol llenguatge de programació o solució que pugui fer una crida d'API màxim Medium Pagar només per sol·licituds reeixides SDK Principalment petits i mitjans projectes Desenvolupadors de Python/JavaScript, petits equips Projectes de Python i JavaScript/Node.js Mediàtic Baixa SDKs gratuïts, després pagueu només per sol·licituds reeixides MCP Projectes de qualsevol mida Els entusiastes d'AI, codificadors de vibe Qualsevol marc d'IA o solució que suporti la integració de MCP Baix (com AI fa la seva màgia) Molt baixa Gratuït (amb eines de preu disponible) Pensaments finals Ara coneixes les tres millors maneres d'accedir a les dades web i com difereixen, de manera que pots triar l'enfocament correcte per al teu projecte. . una infraestructura de dades web que admet múltiples casos d'ús a escala A Bright Data, la nostra missió és simple: fer que la web sigui accessible per a tothom, a tot arreu, ja sigui a través d'API, SDK o AI a través de MCP.