]> pere.pagekite.me Git - homepage.git/blobdiff - blog/archive/2017/11/11.rss
Publish nikita beta article.
[homepage.git] / blog / archive / 2017 / 11 / 11.rss
index 829c89c91f9ce719b627b8e63cc26c452f17bd3e..cea8c2845a0961b839e13faf28a3c481daebde86 100644 (file)
@@ -6,6 +6,125 @@
                 <link>http://people.skolelinux.org/pere/blog/</link>
 
        
+       <item>
+               <title>Metadata proposal for movies on the Internet Archive</title>
+               <link>http://people.skolelinux.org/pere/blog/Metadata_proposal_for_movies_on_the_Internet_Archive.html</link>        
+               <guid isPermaLink="true">http://people.skolelinux.org/pere/blog/Metadata_proposal_for_movies_on_the_Internet_Archive.html</guid>
+                <pubDate>Tue, 28 Nov 2017 12:00:00 +0100</pubDate>
+               <description>&lt;p&gt;It would be easier to locate the movie you want to watch in
+&lt;a href=&quot;https://www.archive.org/&quot;&gt;the Internet Archive&lt;/a&gt;, if the
+metadata about each movie was more complete and accurate.  In the
+archiving community, a well known saying state that good metadata is a
+love letter to the future.  The metadata in the Internet Archive could
+use a face lift for the future to love us back.  Here is a proposal
+for a small improvement that would make the metadata more useful
+today.  I&#39;ve been unable to find any document describing the various
+standard fields available when uploading videos to the archive, so
+this proposal is based on my best quess and searching through several
+of the existing movies.&lt;/p&gt;
+
+&lt;p&gt;I have a few use cases in mind.  First of all, I would like to be
+able to count the number of distinct movies in the Internet Archive,
+without duplicates.  I would further like to identify the IMDB title
+ID of the movies in the Internet Archive, to be able to look up a IMDB
+title ID and know if I can fetch the video from there and share it
+with my friends.&lt;/p&gt;
+
+&lt;p&gt;Second, I would like the Butter data provider for The Internet
+archive
+(&lt;a href=&quot;https://github.com/butterproviders/butter-provider-archive&quot;&gt;available
+from github&lt;/a&gt;), to list as many of the good movies as possible.  The
+plugin currently do a search in the archive with the following
+parameters:&lt;/p&gt;
+
+&lt;p&gt;&lt;pre&gt;
+collection:moviesandfilms
+AND NOT collection:movie_trailers
+AND -mediatype:collection
+AND format:&quot;Archive BitTorrent&quot;
+AND year
+&lt;/pre&gt;&lt;/p&gt;
+
+&lt;p&gt;Most of the cool movies that fail to show up in Butter do so
+because the &#39;year&#39; field is missing.  The &#39;year&#39; field is populated by
+the year part from the &#39;date&#39; field, and should be when the movie was
+released (date or year).  Two such examples are
+&lt;a href=&quot;https://archive.org/details/SidneyOlcottsBen-hur1905&quot;&gt;Ben Hur
+from 1905&lt;/a&gt; and
+&lt;a href=&quot;https://archive.org/details/Caminandes2GranDillama&quot;&gt;Caminandes
+2: Gran Dillama from 2013&lt;/a&gt;, where the year metadata field is
+missing.&lt;/p&gt;
+
+So, my proposal is simply, for every movie in The Internet Archive
+where an IMDB title ID exist, please fill in these metadata fields
+(note, they can be updated also long after the video was uploaded, but
+as far as I can tell, only by the uploader):
+
+&lt;dl&gt;
+
+&lt;dt&gt;mediatype&lt;/dt&gt;
+&lt;dd&gt;Should be &#39;movie&#39; for movies.&lt;/dd&gt;
+
+&lt;dt&gt;collection&lt;/dt&gt;
+&lt;dd&gt;Should contain &#39;moviesandfilms&#39;.&lt;/dd&gt;
+
+&lt;dt&gt;title&lt;/dt&gt;
+&lt;dd&gt;The title of the movie, without the publication year.&lt;/dd&gt;
+
+&lt;dt&gt;date&lt;/dt&gt;
+&lt;dd&gt;The data or year the movie was released.  This make the movie show
+up in Butter, as well as make it possible to know the age of the
+movie and is useful to figure out copyright status.&lt;/dd&gt;
+
+&lt;dt&gt;director&lt;/dt&gt;
+&lt;dd&gt;The director of the movie.  This make it easier to know if the
+correct movie is found in movie databases.&lt;/dd&gt;
+
+&lt;dt&gt;publisher&lt;/dt&gt;
+&lt;dd&gt;The production company making the movie.  Also useful for
+identifying the correct movie.&lt;/dd&gt;
+
+&lt;dt&gt;links&lt;/dt&gt;
+
+&lt;dd&gt;Add a link to the IMDB title page, for example like this: &amp;lt;a
+href=&quot;http://www.imdb.com/title/tt0028496/&quot;&amp;gt;Movie in
+IMDB&amp;lt;/a&amp;gt;.  This make it easier to find duplicates and allow for
+counting of number of unique movies in the Archive.  Other external
+references, like to TMDB, could be added like this too.&lt;/dd&gt;
+
+&lt;/dl&gt;
+
+&lt;p&gt;I did consider proposing a Custom field for the IMDB title ID (for
+example &#39;imdb_title_url&#39;, &#39;imdb_code&#39; or simply &#39;imdb&#39;, but suspect it
+will be easier to simply place it in the links free text field.&lt;/p&gt;
+
+&lt;p&gt;I created
+&lt;a href=&quot;https://github.com/petterreinholdtsen/public-domain-free-imdb&quot;&gt;a
+list of IMDB title IDs for several thousand movies in the Internet
+Archive&lt;/a&gt;, but I also got a list of several thousand movies without
+such IMDB title ID (and quite a few duplicates).  It would be great if
+this data set could be integrated into the Internet Archive metadata
+to be available for everyone in the future, but with the current
+policy of leaving metadata editing to the uploaders, it will take a
+while before this happen.  If you have uploaded movies into the
+Internet Archive, you can help.  Please consider following my proposal
+above for your movies, to ensure that movie is properly
+counted. :)&lt;/p&gt;
+
+&lt;p&gt;The list is mostly generated using wikidata, which based on
+Wikipedia articles make it possible to link between IMDB and movies in
+the Internet Archive.  But there are lots of movies without a
+Wikipedia article, and some movies where only a collection page exist
+(like for &lt;a href=&quot;https://en.wikipedia.org/wiki/Caminandes&quot;&gt;the
+Caminandes example above&lt;/a&gt;, where there are three movies but only
+one Wikidata entry).&lt;/p&gt;
+
+&lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
+activities, please send Bitcoin donations to my address
+&lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
+</description>
+       </item>
+       
        <item>
                <title>Legal to share more than 3000 movies listed on IMDB?</title>
                <link>http://people.skolelinux.org/pere/blog/Legal_to_share_more_than_3000_movies_listed_on_IMDB_.html</link>        
@@ -26,7 +145,7 @@ better understanding of the structure of the data set, I created a
 histogram of the year associated with each movie (typically release
 year).  It is interesting to notice where the peaks and dips in the
 graph are located.  I wonder why they are placed there.  I suspect
-World Word II caused the dip around 1940, but what caused the peak
+World War II caused the dip around 1940, but what caused the peak
 around 2010?&lt;/p&gt;
 
 &lt;p align=&quot;center&quot;&gt;&lt;img src=&quot;http://people.skolelinux.org/pere/blog/images/2017-11-18-verk-i-det-fri-filmer.png&quot; /&gt;&lt;/p&gt;
@@ -70,6 +189,10 @@ movies that are legal to distribute on the Internet.  If such page
 exist and include a link to both IMDB and The Internet Archive, the
 script used to generate free-movies-archive-org-wikidata.json should
 pick up the mapping as soon as wikidata is updates.&lt;/p&gt;
+
+&lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
+activities, please send Bitcoin donations to my address
+&lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
 </description>
        </item>
        
@@ -148,6 +271,10 @@ true if fault tolerance do not work.&lt;/p&gt;
 &lt;p&gt;Just remember, in the end, it do not matter how redundant, or how
 fault tolerant your storage is, if you do not continuously monitor its
 status to detect and replace failed disks.&lt;/p&gt;
+
+&lt;p&gt;As usual, if you use Bitcoin and want to show your support of my
+activities, please send Bitcoin donations to my address
+&lt;b&gt;&lt;a href=&quot;bitcoin:15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&quot;&gt;15oWEoG9dUPovwmUL9KWAnYRtNJEkP1u1b&lt;/a&gt;&lt;/b&gt;.&lt;/p&gt;
 </description>
        </item>