{"id":112,"date":"2014-02-01T10:18:09","date_gmt":"2014-02-01T10:35:39","guid":{"rendered":"https:\/\/4573976561389925325.jpg"},"modified":"2015-07-31T12:57:01","modified_gmt":"2015-07-31T18:57:01","slug":"parsear-html-utilizando-la-libreria-php-simple-html-dom","status":"publish","type":"post","link":"https:\/\/emanuelpaxtian.com\/blog\/parsear-html-utilizando-la-libreria-php-simple-html-dom\/","title":{"rendered":"Parsear HTML utilizando la librer\u00ad\u00eda PHP Simple HTML DOM"},"content":{"rendered":"<p>Vamos a ver una librer\u00eda que nos puede ser de gran utilidad si necesitamos extraer c\u00f3digo HTML. Para ello haremos uso de la librer\u00eda <strong>PHP Simple HTML DOM<\/strong>.<\/p>\n<p>Lo primero que debemos de hacer es descargar la librer\u00eda para posteriormente incluirla en nuestro proyecto.<br \/>\nSe puede usar de dos formas la primera es en un c\u00f3digo html que le pasemos y para ello utilizaremos la funci\u00f3n load la otra forma de usarlo es usar la funci\u00f3n load_file<br \/>\nHay que mencionar que si la configuraci\u00f3n del servidor, la directiva \u201callow_url_fopen\u201d no est\u00e1 a true, entonces no podr\u00e1s utilizar la carga de archivos externos ya que hace uso de la funci\u00f3n de PHP \u201cfile_get_contents\u201d.<br \/>\nUna vez que tu crear el objeto, ya puedes empezar a trabajar con la informaci\u00f3n. Puedes utilizar el m\u00e9todo \u201cfind\u201d y crear colecciones. Una colecci\u00f3n es un grupo de objetos que han sido localizados bajo un mismo selector, por ejemplo la etiqueta \u201cp\u201d.<br \/>\nSupongamos que tenemos el siguiente c\u00f3digo HTML.<\/p>\n<pre>&lt;html&gt;\r\n&lt;body&gt;\r\n&lt;p&gt;Hello World!&lt;\/p&gt;\r\n&lt;p&gt;We're Here.&lt;\/p&gt;\r\n&lt;\/body&gt;\r\n&lt;\/html&gt;<\/pre>\n<p>Si queremos a\u00f1adir al segundo texto algo de informaci\u00f3n, se podr\u00eda hacer de la siguiente forma.<\/p>\n<pre class=\"brush:php\">#incluimos la libreria para crear la instancia\r\ninclude('simple_html_dom.php');\r\n$html = new simple_html_dom();\r\n$html-&gt;load(\"<\/pre>\n<p>Hello World!<\/p>\n<p>We&#8217;re here<\/p>\n<pre class=\"brush:php\">\");\r\n# hacemos nuestra busqueda \r\n$element = $html-&gt;find(\"p\");\r\n\r\n<\/pre>\n<p>En el ejemplo buscamos todos los elementos \u201cp\u201d del documento con el m\u00e9todo find(), lo que nos devuelve un array con todos los elementos encontrados.<br \/>\nLuego podemos hacer lo que deseemos con la informaci\u00f3n ejemplo guardarla en una base de datos o simplemente para visualizarla<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vamos a ver una librer\u00eda que nos puede ser de gran utilidad si necesitamos extraer c\u00f3digo HTML. Para ello haremos uso de la librer\u00eda PHP Simple HTML DOM. Lo primero&hellip;<\/p>\n","protected":false},"author":1,"featured_media":561,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5],"tags":[],"class_list":["post-112","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-php"],"_links":{"self":[{"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/posts\/112","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/comments?post=112"}],"version-history":[{"count":0,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/posts\/112\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/media\/561"}],"wp:attachment":[{"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/media?parent=112"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/categories?post=112"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/emanuelpaxtian.com\/blog\/wp-json\/wp\/v2\/tags?post=112"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}